作者:楊夕
項目地址:https://github.com/km1994/NLP-Interview-Notes
個人論文讀書筆記:https://github.com/km1994/nlp_paper_study
【註:手機閱讀可能圖片打不開!!!】
由於計算機無法識別 文本語言,所以需要將文本數位化,one-hot 方法最早的一種將 文本數位化的方法。
1.2 one-hot 是什麼?用一個很長的向量來表示一個詞,向量長度為詞典的大小N,每個向量只有一個維度為1,其餘維度全部為0,為1的位置表示該詞語在詞典的位置。
1.3 one-hot 有什麼特點?1.4 one-hot 存在哪些問題?維度災難:容易受維數災難的困擾,每個詞語的維度就是語料庫字典的長度;
離散、稀疏問題:因為 one-Hot 中,句子向量,如果詞出現則為1,沒出現則為0,但是由於維度遠大於句子長度,所以句子中的1遠小於0的個數;
維度鴻溝問題:詞語的編碼往往是隨機的,導致不能很好地刻畫詞與詞之間的相似性。
二、TF-IDF 篇2.1 什麼是 TF-IDF?TF-IDF 是一種統計方法,用以評估句子中的某一個詞(字)對於整個文檔的重要程度。
2.2 TF-IDF 如何評估詞的重要程度?2.3 TF-IDF 的思想是什麼?如果某個單詞在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類;
2.4 TF-IDF 的計算公式是什麼?2.5 TF-IDF 怎麼描述?某一特定句子內的高詞語頻率,以及該詞語在整個文檔集合中的低文檔頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。
2.6 TF-IDF 的優點是什麼?2.7 TF-IDF 的缺點是什麼?其簡單結構並沒有考慮詞語的語義信息,無法處理一詞多義與一義多詞的情況。
2.8 TF-IDF 的應用?參考資料神經網路語言模型(NNLM)的理解
NLP 面試題(一)和答案,附