依稀記得去年數據挖掘課有講過這個概念,年輕不懂事,沒認真聽,只能現在補課
對於自然語言處理其實目前涉及的比較少,但是如果是臨床大夫可能就比較多了,比較經典的例子就是電子病例的挖掘
文本文本是一種非結構化的數據,在機器學習或者深度學習中,這些非結構化的數據是不能直接參與運算的,因此需要將非結構化的數據轉換為結構化的數據,這個過程叫做文本表示。
one-hotone-hot 編碼有點類似統計分析中,將多分類變量進行啞變量處理的過程,如下
人廚子 [1,0,0,0]
百草仙 [0,1,0,0]
張一氓 [0,0,1,0]
聖因師太[0,0,0,1]one-hot 編碼對於少量的物體或者詞語來說是可以實現的,但是如果涉及到較多的詞語幾百上千的詞,這個時候對於深度學習來說就是一種冗餘,絕大多數的參數都是0,這種稀疏矩陣是不利於深度學習的
整數編碼整數編碼類似將啞變量再轉換回來
人廚子 1
百草仙 2
張一氓 3
聖因師太 4缺點:模型解釋困難
word embedding什麼是embedding?,簡單的說embedding就是將一個詞用一個低維的向量來表示,這個使用低維向量表示高維世界物體的想法跟傅立葉變化有著異曲同工之秒。通俗的講從另一個世界看這個世界
word embedding 的優點
降低參數的數量,和one-hot相比
通用性強
詞與詞之間存在關聯
兩種主流算法
結束語word2vec的算法原理很複雜,整不明白
love&peace