文本分類是自然語言處理的經典問題之一,其主要目的是為目標語句分配標籤。隨著網際網路的發展,文本的規模呈指數級上漲,自動文本分類逐步成為主流方法。自動文本分類方法可分為三類 :基於規則、基於機器學習和深度學習以及混合方法。基於規則的方法使用預先定義的各種規則來進行文本分類,例如「體育」這一類別會把所有包含「足球」、「籃球」或「排球」之類詞語的文本納入其中。基於規則的方法需要對待分類文本所屬的領域有著深入的了解,這就抬高了這種方法的門檻。近年來,機器學習,尤其是深度學習相關的方法開始在文本分類中流行起來。基於機器學習的文本分類主要包括文本表示、特徵選擇和構造分類器。深度學習模型在學習文本特徵時,能夠發現一些難以定義的隱藏規則或模式。這類方法通常包含兩個主要的步驟:一是構造合適的詞向量來表示任務中輸入的文本;二是選擇合適的模型來訓練提取文本特徵,並通過這些特徵進行文本分類。
文本表示是文本分類的基礎,要將自然語言處理問題轉化成機器可學習的數學模型,首先要對詞和文本進行向量化建模。傳統文本表示主要使用布爾模型、概率模型和向量空間模型,忽略詞語間語義關係,存在數據高維稀疏問題 。近年來,詞向量成為文本表示的主流,詞向量是一種分布式的詞表示形式,即將單詞表示為在連續空間上的低維稠密向量形式,可以直接刻畫詞與詞之間的相似度,大大緩解了維數災難的問題,彌補淺層表示學習的不足。詞向量主要包括 Word2vec 和 Doc2vec 這 2 種模型。Word2vec 是谷歌在 2013 年發布的詞向量訓練工具,能夠從大規模未經標註的語料中高效地生成詞的向量形式。Doc2vec 又叫 Paragraph Vector,是基於 Word2vec 模型提出的一個無監督學習算法,用於預測一個向量來表示不同的文檔。該模型優點是不用固定句子長度,可以接受不同長度的句子做訓練樣本。Doc2vec 模型通過增加一個段落向量,彌補Word2vec 模型在詞向量處理階段忽略單詞之間排列順序的缺陷,增強模型表示文本語義的準確性和完整性。特徵選擇的方法主要為: 特徵頻率、文檔頻率、信息增益、互信息、CHI 統計、期望交叉熵、文本證據權、優勢率、低損降維法和頻率差法等 ,其中 CHI 統計方法和信息增益法是最常用的2個特徵選擇指標。文本分類的流程圖如圖1所示:
圖 1 文本分類流程圖.
(源自論文《中文文本分類方法綜述》)
圖 2 文本分類關鍵技術.
(源自論文《改進的TF-IDF算法在文本分類中的研究 》)
相對較早一些的針對傳統文本分類方法存在的不足,眾多學者對文本分類方法展開研究,對其進行修正和改進的文章如下:為直接表達文本,文獻[1]提出了一種基於密集網的短文本分類模型,採用one-hot 編碼,通過合併和隨機選擇的方法擴大文本特徵選擇,解決了特徵稀疏、文本數據和特徵表示等方面問題。文獻[3]和文獻[4]分別採用改進 TF-IDF 修改詞向量權重和人工建立詞典的方法,對文本分類算法進行優化,最終利用卷積神經網絡構造分類器,提高了文本分類的精度,但其對高階特徵未進行合理的處置,導致學習的時間複雜度遠高於傳統的機器學習方法,還有待進一步改善。文獻[5]提出了一種基於深度學習的特徵融合模型的文本分類方法,使用卷積神經網絡和雙向門控循環單元提取文本的上下文信息和本級信息,有效地提取文本間的語義特徵信息,降低文本表示對分類結果的影響。
2021年年初,《融合BERT詞嵌入和注意力機制的中文文本分類》一文提出了一種用 BERT 訓練詞向量,用雙向 GRU 網絡進行高效的特徵提取,同時融合注意力機製作為輔助特徵特徵嵌入的文本分類模型BBGA(BERT based Bidirectional GRU with Attention)。BBGA 模型結構如圖 3所示:
圖 3 BBGA模型結構圖.
(源自論文《融合BERT詞嵌入和注意力機制》)
該模型的整體運作流程是:首先輸入文本數據,利用 BERT 預訓練模型,獲得包含文本總體信息的動態詞向量,接著將新的詞向量輸入到雙層的 GRU 網絡進行特徵提取,捕捉文本的特徵信息,最後引入注意力機制,得到輸入文本的最終概率表達,從而達到文本分類的目的。為了分析本文的 BBGA 模型在每個類別分類上的準確率,同時也為後續的優化工作做準備,挑選了具有代表性的BERT_CNN模型和FastText模型作為對比實驗,實驗結果如圖 4 所示。
圖 4 各個類別分類精度對比.
(源自論文《融合BERT詞嵌入和注意力機制》)
可以看出,BBGA模型不僅在每個具體的分類任務中的效果優於其他模型,同時每個分類任務的準確率都超過了90%,某些特徵明顯的類別,例如體育和教育,精度更是達到了 98.14%和 96.48%。
TF-IDF (Term Frequency and Inverted Document Frequency) 是最常用的權重值的計算方法,用以評估某一詞條對於整個文件集或語料庫中的某一 份文檔的重要程度。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出 現的位置 、 詞 性 、 樣本分布等信 息,存在一定局限性2021年7月,《改進的TF-IDF算法在文本分類中的研究》一文提出了一種改進的TF-IDF算法,將文本信息抽取結果作為文本重要類別區分特徵,引入信息增益方法得到改進的權重計算公式,進而得到改進的文本特徵向量空間表示,再構建文本分類模型。通過對比實驗結果(圖5)表明,改進的TF-IDF算法具有更好的文本分類效果,精確率P達到99.3% ,召回率R達到98.7% ,相比於傳統 TF-IDF 算法 文本分類效果得到顯著提高 。
圖 5 改進的TF-IDF算法在不同分類模型F1值比較.
(源自論文《改進的TF-IDF算法在文本分類中的研究 》)
但使用基於TF-IDF的向量空間模型,前提是假設特徵詞之間相互獨立的,但實際詞與詞之間有一定的關聯,因而會忽略文本上下文關係,無法表徵特徵詞的語義信息。將文本編碼成數值向量會導致諸如大維數和稀疏分布等問題 。圖成為知識或信息的普遍代表,稱為本體論或詞網。因為本體是用來將知識表示為圖的,所以在以前的工作中,有很多處理圖的算法。因此,基於這些動機,將文本編碼成圖,並將機器學習算法修改成接收圖作為輸入數據的版本。2021年10月底,《基於圖和K近鄰的文本分類算法》提出了一種基於圖和改進的K近鄰文本分類算法,該算法的核心是一個圖作為輸入,所以將文本編碼成圖,定義圖之間的相似度,然後將K近鄰算法優化基於圖的文本分類工具。該文通過在表示文本的圖上用數學方法定義和刻畫更高級的運算,使用更複雜的操作,將更先進的機器學習算法修改為基於圖的算法。採用該方法,將文本分類系統作為一個系統模塊或一個獨立的軟體來實現。將文本編碼成圖的過程,如圖6所示。圖 6 文本編碼成圖的過程.
(源自論文《基於圖和K近鄰的文本分類算法 》)
將圖分解為兩組:頂點集和邊集。頂點和邊分別對應於單詞及其語義關係。在該文中,將表示文字的圖作為加權無向圖。
改進後的KNN 算法的分類過程,如圖7所示。
圖7.改進的KNN示意圖.
(源自論文《基於圖和K近鄰的文本分類算法 》)
隨著圖神經網絡技術在自然語言處理領域中的廣泛應用,基於圖神經網絡的文本分類研究受到了越來越多的關注,文本構圖是圖神經網絡應用到文本分類中的一項重要研究任務,已有方法在構圖時通常不能有效捕獲句子中遠距離詞語的依賴關係。基於此,《融入句子中遠距離詞語依賴的圖卷積短文本分類方法》一文提出了一種融入遠距離詞語依賴關係進行構圖的圖卷積短文本分類方法。首先結合詞語共現關係、文檔和詞語之間的包含關係、遠距離詞語依賴關係為整個文本語料庫構建一個文本圖;然後將文本圖輸入到圖卷積神經網絡,通過 2 層卷積後對每個文檔節點進行類別預測。圖 8 SGCN整體架構圖.
(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)
該方法的模型結構如圖8所示。首先對完整的文本數據集構圖,然後將構建的圖輸入到 GCN,在2層卷積後對文檔節點進行類別預測。對文檔進行依存關係分析,選取句子中存在遠距離依賴關係的詞語來擴展文本圖,這將有利於豐富所構圖的語義信息,可以進一步提升模型的性能。例句「我剛剛吃了一個蘋果,而他吃了一個蘋果和一個芒果。」和「他吃了一個麵包並且喝了一瓶牛奶」,其對應的依存結構如圖 9和圖10所示。
圖 9 依存圖結構.
(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)
圖 10 依存圖結構.
(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)
通過對上述句子的依存結構進行分析,可以得到多種遠距離詞語依賴關係,如下表1所示:表 1 遠距離依賴關係.
(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)
儘管實驗結果表明了本文方法的有效性,但短文本的表示仍存在特徵稀疏和語義信息缺乏的問題。三.總結
參考文獻:
[1] LI H M, HUANG H N, CAO X, et al. Falcon: a novel chinese short text classification method[J]. Journal of Computer and Communi-cations, 2018, 6: 216-226.
[2]於遊,付鈺,吳曉平.中文文本分類方法綜述[J].網絡與信息安全學報,2019,v.5;No.42(05):1-8.
[3] 王根生, 黃學堅. 基於 Word2vec 和改進型 TF-IDF 的卷積神經網絡文本分類模型[J]. 小型 微型 計算機系統, 2019, 40(5):1120-1126.WANG G S, HUANG X J. Convolutional neural network textclassification model based on Word2vec and improved TF-IDF[J].Journal of Chinese Computer Systems, 2019, 40(5): 1120-1126.
[4] 王磊. 基於混合神經網絡的中文短文本分類方法研究[D]. 杭州:浙江理工大學, 2019.WANG L. Research on chinese short text classification based onhybrid neural network[D]. Hangzhou: Zhejiang University of Sci-ence and Technology, 2019.
[5] JIN W Z, ZHU H, YANG G C. An efficient character-level and word-level feature fusion method for chinese text classification[C]//Journal of Physics: Conference Series. 2019: 12057.
[6]何鎧. 基於自然語言處理的文本分類研究與應用[D].南京郵電大學,2020.DOI:10.27251/d.cnki.gnjdc.2020.000274.
[7]孫紅,陳強越.融合BERT詞嵌入和注意力機制的中文文本分類[J/OL].小型微型計算機系統:1-6[2021-12-11].
[8]賈澎濤,孫煒.基於深度學習的文本分類綜述[J].計算機與現代化,2021,No.311(07):29-37.
[9]吳宗卓.基於圖和K近鄰的文本分類算法[J].微型電腦應用,2021,v.37;No.342(10):46-49.
[10]張虎,柏萍.融入句子中遠距離詞語依賴的圖卷積短文本分類方法[J/OL].計算機科學:1-11[2021-12-12].