(1)特點:N-gram項的生成:為了得到字符串中結尾部分的字符串,對不夠n的字符串追加空格。如:Text的3-gram項為_Te、Tex、ext、xt_、t__。類的表示:先計算類別中所有訓練文本的n-gram項的詞頻,然後按詞頻對其由大到小進行排序,最後保留從第n(實驗中等於300)項開始的k個n-gram項作為此類的特徵值。Note: These profiles are for explanatory purpose only and do not reflect real n-gram frequency statistics. (2)優點:容錯性強,可以允許文本中有拼寫錯誤等噪聲。 (3)用途:區分測試文檔是何種語言,即語言分類;自動文本分類Bayes分類器是一個性能很好的線性分類器,但是它假設文檔的每個分類特徵屬性間是相互獨立的,這顯然是不成立的。假設di={wi1,wi2,…,win}為一任意文檔,它屬於文檔類C={c1, c2,…, ck}中的某一類cj。根據Bayes分類器有:如果使用Bayes網絡來描述特徵屬性間的聯繫,則失去了Bayes模型的簡單性和線性特徵。我們使用了統計語言學中的N-Gram模型,它假設一個詞在文檔中某個位置出現的概率僅與它之前的n-1個詞有關,即:我們可以得到在某個類別c的文檔集中,w1,w2,…,wT出現的概率為:這樣放鬆了Bayes模型中每個特徵屬性相互獨立的假設,在計算一個文檔在某個類別中的概率時考慮了文本中一些特徵屬性間的相互聯繫。對於文檔中的特徵屬性wi,我們使用N-gram的方法進行生成,這樣使特徵屬性生成的過程獨立於領域、與時間和詞典無關,分類器對詞法方面的噪聲不敏感。直觀地來說,概率
這裡我們介紹基於機器學習和深度學習的文本分類,主要內容來自北航、伊利諾伊大學等學者聯合發表論文 A Survey on Text Classification: From Shallow to Deep Learning。本文通過回顧文本分類領域自1961年到2020年以來的歷年SOTA模型來填補這類綜述研究的空白,聚焦於從淺層學習到深度學習的各種模型。