文本分類任務近期發展概況

2022-01-03 知圖智演

文本分類是自然語言處理的經典問題之一,其主要目的是為目標語句分配標籤。隨著網際網路的發展,文本的規模呈指數級上漲,自動文本分類逐步成為主流方法。自動文本分類方法可分為三類 :基於規則、基於機器學習和深度學習以及混合方法。基於規則的方法使用預先定義的各種規則來進行文本分類,例如「體育」這一類別會把所有包含「足球」、「籃球」或「排球」之類詞語的文本納入其中。基於規則的方法需要對待分類文本所屬的領域有著深入的了解,這就抬高了這種方法的門檻。近年來,機器學習,尤其是深度學習相關的方法開始在文本分類中流行起來。基於機器學習的文本分類主要包括文本表示特徵選擇構造分類器。深度學習模型在學習文本特徵時,能夠發現一些難以定義的隱藏規則或模式。這類方法通常包含兩個主要的步驟:一是構造合適的詞向量來表示任務中輸入的文本;二是選擇合適的模型來訓練提取文本特徵,並通過這些特徵進行文本分類。

文本表示是文本分類的基礎,要將自然語言處理問題轉化成機器可學習的數學模型,首先要對詞和文本進行向量化建模。傳統文本表示主要使用布爾模型、概率模型和向量空間模型,忽略詞語間語義關係,存在數據高維稀疏問題 。近年來,詞向量成為文本表示的主流,詞向量是一種分布式的詞表示形式,即將單詞表示為在連續空間上的低維稠密向量形式,可以直接刻畫詞與詞之間的相似度,大大緩解了維數災難的問題,彌補淺層表示學習的不足。詞向量主要包括 Word2vec 和 Doc2vec 這 2 種模型。Word2vec 是谷歌在 2013 年發布的詞向量訓練工具,能夠從大規模未經標註的語料中高效地生成詞的向量形式。Doc2vec 又叫 Paragraph Vector,是基於 Word2vec 模型提出的一個無監督學習算法,用於預測一個向量來表示不同的文檔。該模型優點是不用固定句子長度,可以接受不同長度的句子做訓練樣本。Doc2vec 模型通過增加一個段落向量,彌補Word2vec 模型在詞向量處理階段忽略單詞之間排列順序的缺陷,增強模型表示文本語義的準確性和完整性。特徵選擇的方法主要為: 特徵頻率、文檔頻率、信息增益、互信息、CHI 統計、期望交叉熵、文本證據權、優勢率、低損降維法和頻率差法等 ,其中 CHI 統計方法和信息增益法是最常用的2個特徵選擇指標。

文本分類的流程圖如圖1所示:

圖 1  文本分類流程圖.

(源自論文《中文文本分類方法綜述》)

圖 2  文本分類關鍵技術.

(源自論文《改進的TF-IDF算法在文本分類中的研究 》)

      相對較早一些的針對傳統文本分類方法存在的不足,眾多學者對文本分類方法展開研究,對其進行修正和改進的文章如下:為直接表達文本,文獻[1]提出了一種基於密集網的短文本分類模型,採用one-hot 編碼,通過合併和隨機選擇的方法擴大文本特徵選擇,解決了特徵稀疏、文本數據和特徵表示等方面問題。文獻[3]和文獻[4]分別採用改進 TF-IDF 修改詞向量權重和人工建立詞典的方法,對文本分類算法進行優化,最終利用卷積神經網絡構造分類器,提高了文本分類的精度,但其對高階特徵未進行合理的處置,導致學習的時間複雜度遠高於傳統的機器學習方法,還有待進一步改善。文獻[5]提出了一種基於深度學習的特徵融合模型的文本分類方法,使用卷積神經網絡和雙向門控循環單元提取文本的上下文信息和本級信息,有效地提取文本間的語義特徵信息,降低文本表示對分類結果的影響。

2021年年初,《融合BERT詞嵌入和注意力機制的中文文本分類》一文提出了一種用 BERT 訓練詞向量,用雙向 GRU 網絡進行高效的特徵提取,同時融合注意力機製作為輔助特徵特徵嵌入的文本分類模型BBGA(BERT based Bidirectional GRU with Attention)。BBGA 模型結構如圖 3所示:

圖 3 BBGA模型結構圖.
(源自論文《融合BERT詞嵌入和注意力機制》)

      該模型的整體運作流程是:首先輸入文本數據,利用 BERT 預訓練模型,獲得包含文本總體信息的動態詞向量,接著將新的詞向量輸入到雙層的 GRU 網絡進行特徵提取,捕捉文本的特徵信息,最後引入注意力機制,得到輸入文本的最終概率表達,從而達到文本分類的目的。為了分析本文的 BBGA 模型在每個類別分類上的準確率,同時也為後續的優化工作做準備,挑選了具有代表性的BERT_CNN模型和FastText模型作為對比實驗,實驗結果如圖 4 所示。

圖 4 各個類別分類精度對比.

(源自論文《融合BERT詞嵌入和注意力機制》)

      可以看出,BBGA模型不僅在每個具體的分類任務中的效果優於其他模型,同時每個分類任務的準確率都超過了90%,某些特徵明顯的類別,例如體育和教育,精度更是達到了 98.14%和 96.48%。

TF-IDF (Term Frequency and Inverted Document Frequency) 是最常用的權重值的計算方法,用以評估某一詞條對於整個文件集或語料庫中的某一 份文檔的重要程度。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出 現的位置 、 詞 性 、 樣本分布等信 息,存在一定局限性2021年7月,改進的TF-IDF算法在文本分類中的研究》一文提出了一種改進的TF-IDF算法,將文本信息抽取結果作為文本重要類別區分特徵,引入信息增益方法得到改進的權重計算公式,進而得到改進的文本特徵向量空間表示,再構建文本分類模型。通過對比實驗結果(圖5)表明,改進的TF-IDF算法具有更好的文本分類效果,精確率P達到99.3% ,召回率R達到98.7% ,相比於傳統 TF-IDF 算法 文本分類效果得到顯著提高 。

      

圖 5 改進的TF-IDF算法在不同分類模型F1值比較.

(源自論文《改進的TF-IDF算法在文本分類中的研究 》)

但使用基於TF-IDF的向量空間模型,前提是假設特徵詞之間相互獨立的,但實際詞與詞之間有一定的關聯,因而會忽略文本上下文關係,無法表徵特徵詞的語義信息。將文本編碼成數值向量會導致諸如大維數和稀疏分布等問題 。圖成為知識或信息的普遍代表,稱為本體論或詞網。因為本體是用來將知識表示為圖的,所以在以前的工作中,有很多處理圖的算法。因此,基於這些動機,將文本編碼成圖,並將機器學習算法修改成接收圖作為輸入數據的版本。2021年10月底,基於圖和K近鄰的文本分類算法提出了一種基於圖和改進的K近鄰文本分類算法,該算法的核心是一個圖作為輸入,所以將文本編碼成圖,定義圖之間的相似度,然後將K近鄰算法優化基於圖的文本分類工具。該文通過在表示文本的圖上用數學方法定義和刻畫更高級的運算,使用更複雜的操作,將更先進的機器學習算法修改為基於圖的算法。採用該方法,將文本分類系統作為一個系統模塊或一個獨立的軟體來實現。將文本編碼成圖的過程,如圖6所示。

圖 6 文本編碼成圖的過程.

(源自論文《基於圖和K近鄰的文本分類算法 》)

      將圖分解為兩組:頂點集和邊集。頂點和邊分別對應於單詞及其語義關係。在該文中,將表示文字的圖作為加權無向圖。

      改進後的KNN 算法的分類過程,如圖7所示。



圖7.改進的KNN示意圖.

(源自論文《基於圖和K近鄰的文本分類算法 》)

隨著圖神經網絡技術在自然語言處理領域中的廣泛應用,基於圖神經網絡的文本分類研究受到了越來越多的關注,文本構圖是圖神經網絡應用到文本分類中的一項重要研究任務,已有方法在構圖時通常不能有效捕獲句子中遠距離詞語的依賴關係。基於此,《融入句子中遠距離詞語依賴的圖卷積短文本分類方法》一文提出了一種融入遠距離詞語依賴關係進行構圖的圖卷積短文本分類方法。首先結合詞語共現關係、文檔和詞語之間的包含關係、遠距離詞語依賴關係為整個文本語料庫構建一個文本圖;然後將文本圖輸入到圖卷積神經網絡,通過 2 層卷積後對每個文檔節點進行類別預測。

圖 8 SGCN整體架構圖.

(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)

該方法的模型結構如圖8所示。首先對完整的文本數據集構圖,然後將構建的圖輸入到 GCN,在2層卷積後對文檔節點進行類別預測。對文檔進行依存關係分析,選取句子中存在遠距離依賴關係的詞語來擴展文本圖,這將有利於豐富所構圖的語義信息,可以進一步提升模型的性能。

例句「我剛剛吃了一個蘋果,而他吃了一個蘋果和一個芒果。」和「他吃了一個麵包並且喝了一瓶牛奶」,其對應的依存結構如圖 9和圖10所示。

圖 9 依存圖結構.

(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)

圖 10 依存圖結構.

(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)

通過對上述句子的依存結構進行分析,可以得到多種遠距離詞語依賴關係,如下表1所示:

表 1 遠距離依賴關係.

(源自論文《融入句子中遠距離詞語依賴的圖卷積短文本分類方法 》)

儘管實驗結果表明了本文方法的有效性,但短文本的表示仍存在特徵稀疏和語義信息缺乏的問題。

三.總結

基於深度學習的文本分類提出了豐富的文本分類的相關理論,並為其他相關領域的研究提供了新技術和新思路,研究前景廣闊。近年來雖然有很多研究人員致力於該方面的研究,取得了很多的研究成果,但仍有一些問題需要在未來的研究任務中得到突破:(1)文本分類的研究和它的實際應用在某種程度上存在脫節,比如對於信息檢索來說,文本分類中採用的數據量對比實際需要搜索的網頁數量,對於小的數據集上比較高效的算法對於大的數據集不一定成立。所以,如何保證算法在大的數據集上仍有較好的分類效果是值得研究和突破的。(2)算法的運行效率和算法的精度之間的權衡。目前文本分類的研究中考慮更多的是算法的有效性( 比如正確率、召回率、準確率) ,算法的運行效率也是未來文本分類研究需要考慮的一個因素。因此模型的深度優化依然是深度學習領域的研究課題。(3)跨語種或多語種的文本分類。跨語言的文本分類在跨國組織和企業中的應用越來越多。將在源語言中訓練的分類模型應用於目標語言的分類任務,其挑戰性在於源語言數據的特徵空間與目標語言數據之間缺乏重疊。

參考文獻:

[1] LI H M, HUANG H N, CAO X, et al. Falcon: a novel chinese short text classification method[J]. Journal of Computer and Communi-cations, 2018, 6: 216-226.

[2]於遊,付鈺,吳曉平.中文文本分類方法綜述[J].網絡與信息安全學報,2019,v.5;No.42(05):1-8.

[3] 王根生, 黃學堅. 基於 Word2vec 和改進型 TF-IDF 的卷積神經網絡文本分類模型[J]. 小型 微型 計算機系統, 2019, 40(5):1120-1126.WANG G S, HUANG X J. Convolutional neural network textclassification model based on Word2vec and improved TF-IDF[J].Journal of Chinese Computer Systems, 2019, 40(5): 1120-1126.

[4] 王磊. 基於混合神經網絡的中文短文本分類方法研究[D]. 杭州:浙江理工大學, 2019.WANG L. Research on chinese short text classification based onhybrid neural network[D]. Hangzhou: Zhejiang University of Sci-ence and Technology, 2019.

[5] JIN W Z, ZHU H, YANG G C. An efficient character-level and word-level feature fusion method for chinese text classification[C]//Journal of Physics: Conference Series. 2019: 12057.

[6]何鎧. 基於自然語言處理的文本分類研究與應用[D].南京郵電大學,2020.DOI:10.27251/d.cnki.gnjdc.2020.000274.

[7]孫紅,陳強越.融合BERT詞嵌入和注意力機制的中文文本分類[J/OL].小型微型計算機系統:1-6[2021-12-11].

[8]賈澎濤,孫煒.基於深度學習的文本分類綜述[J].計算機與現代化,2021,No.311(07):29-37.

[9]吳宗卓.基於圖和K近鄰的文本分類算法[J].微型電腦應用,2021,v.37;No.342(10):46-49.

[10]張虎,柏萍.融入句子中遠距離詞語依賴的圖卷積短文本分類方法[J/OL].計算機科學:1-11[2021-12-12].





相關焦點

  • NLP基礎任務:文本分類近年發展匯總,68頁超詳細解析
    然而,基礎任務不代表簡單任務:文本來源複雜多樣,文本粒度有大有小,文本標籤之間也有各種關係。面對各種問題,文本分類,仍在飛速發展中。來自美國維吉尼亞大學的Kamran Kowsari博士等人,用了68頁A4紙的篇幅,從0開始,細緻的總結了文本分類近些年的發展,循序漸進,新手友好!
  • 文本分類六十年
    作者 | Lucy出品 | AI科技大本營文本分類是自然語言處理中最基本而且非常有必要的任務,大部分自然語言處理任務都可以看作是個分類任務。近年來,深度學習所取得的前所未有的成功,使得該領域的研究在過去十年中保持激增。
  • 深度文本分類綜述
    (給算法愛好者加星標,修煉編程內功)作者:何從慶 (本文來自作者投稿)最近有很多小夥伴想了解深度學習在文本分類的發展
  • 文本分類最新進展
    連結 | https://zhuanlan.zhihu.com/p/449914433有幾個文本分類的idea醞釀很久了,準備把CRS做完投naacl之後,把這幾個idea實踐一下。運氣好能趕上sigir,不好只能趕emnlp了;本文收集一些相關工作!!!
  • 【NLP】文本分類綜述 (上)
    文本分類綜述A Survey on Text Classification: From Shallow to Deep Learning,2020[1]文本分類是自然語言處理中最基本,也是最重要的任務。由於深度學習的成功,在過去十年裡該領域的相關研究激增。鑑於已有的文獻已經提出了許多方法,數據集和評估指標,因此更加需要對上述內容進行全面的總結。
  • 文本對分類以及多標籤分類問題的解決思路
    現實生活中,有大量的文本需要人工區分類,而自然語言相關技術的發展使得人們可以通過算法的手段代替手工,極大的加速了社會的發展.而文本分類任務一直是NLP一隻老掉牙的事,從常規的新聞文本分類到特定領域的多類分類(Multiclass classification)  和多標籤分類(Multilabel classification).
  • 機器學習自動文本分類
    網頁、電子郵件、科學期刊、電子書、學習內容、新聞和社交媒體都充滿了文本數據。我們想要快速創建、分析和報告信息,自動文本分類也就應運而生了。更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)文本分類是對文本進行智能分類。使用機器學習來實現這些任務的自動化,使整個過程更加快速高效。人工智慧和機器學習可以說是近來最受益的技術。
  • 【綜述專欄】零樣本文本分類探秘
    一方面,Flair使用了所謂的TARS分類器, 「Text-Aware Representation of Sentences」的縮寫,只需幾行代碼即可運行:另一方面,Transformers可以在 Hugging Face model hub的零樣本分類管道中使用一系列模型:儘管二者有明顯的相似之處,但這兩種零樣本文本分類的實現方法卻迥然不同。
  • ICML 2020 | 基於類別描述的文本分類模型
    論文標題:Description Based Text Classification with Reinforcement Learning論文作者:Duo Chai, Wei Wu, Qinghong Han
  • fastText詞向量與文本分類工具
    一、簡介fastText 是 Facebook 於2016年開源的一個詞向量訓練與文本分類工具,其典型應用場景是「無監督的詞向量學習」和「有監督的文本分類」。fastText 提供簡單而高效的文本分類和詞表徵學習方法,性能比肩深度學習但速度優勢明顯。在文本分類任務中,fastText(淺層網絡)往往能取得和深度學習分類器相媲美的精度,卻在訓練和預測時間上快深度網絡許多數量級。
  • label-embedding在文本分類中的應用
    ,目標是想提高分類器泛化新樣本的能力,當有新樣本產生的時候能夠不需要重新訓練分類器。以往大多數模型的網絡結構都是固定的,不兼容的,以致於無法處理新的任務。因此,作者提出了多任務 label embedding (MTLE),將每個任務的 label 也映射到語義向量中,類似於 word embedding 表示單詞序列,從而將原始的文本分類任務轉化為向量匹配任務。
  • 一文讀懂深度學習文本分類方法
    最近有很多小夥伴想了解深度學習在文本分類的發展,因此,筆者整理最近幾年比較經典的深度文本分類方法,希望幫助小夥伴們了解深度學習在文本分類中的應用。筆者整理了近些年的相關深度文本分類論文,關注「AI算法之心」,後臺回復「文本分類論文」即可下載。
  • 文本分類綜述 | 邁向NLP大師的第一步(上)
    (文末 下期預告 別錯過)綜述內涉及的所有文本分類必讀論文清單,我們已經為大家整理打包好啦,訂閱號後臺回復『文本分類』即可獲取喔~文本分類綜述A Survey on Text Classification: From Shallow to Deep Learning,2020[1]文本分類是自然語言處理中最基本,也是最重要的任務
  • 深度學習文本分類|模型&代碼&技巧
    文本分類是NLP的必備入門任務,在搜索、推薦、對話等場景中隨處可見,並有情感分析、新聞分類、標籤分類等成熟的研究分支和數據集。本文主要介紹深度學習文本分類的常用模型原理、優缺點以及技巧。P.S.Fasttext的分類實現很簡單:把輸入轉化為詞向量,取平均,再經過線性分類器得到類別。輸入的詞向量可以是預先訓練好的,也可以隨機初始化,跟著分類任務一起訓練。
  • 使用 keras-bert 實現文本多分類任務
    本文將會介紹如何使用keras-bert實現文本多分類任務
  • 基於Text-CNN模型的中文文本分類實戰
    本文介紹NLP中文本分類任務中核心流程進行了系統的介紹,文末給出一個基於Text-CNN模型在搜狗新聞數據集上二分類的Demo。文本分類是自然語言處理領域最活躍的研究方向之一,從樣本數據的分類標籤是否互斥上來說,可以分為文本多分類與文本多標籤分類。
  • EMNLP 2018 | 短文本分類,騰訊AI Lab聯合港中文提出主題記憶網絡
    本文是主題模型與文本分類在神經網絡框架下的一次結合,作為主題模型與深度學習聯合訓練的一個早期的探索,能夠很自然地被擴展到很多深度學習任務的上。>短文本因為其內容簡短、易於閱讀和傳播的特性作為信息交互的載體廣泛存在,例如新聞標題、社交媒體的信息、簡訊等等,因此如何讓機器自動而高效地理解短文本一直是自然語言處理的重要任務,而文本分類作為文本理解的基礎任務、能夠服務於大量的下遊應用(例如文本摘要、情感分析、推薦系統等等),更是長期以來學術界與工業界關注的焦點。
  • 業界 Facebook人工智慧實驗室開源文本分類專用工具fastText
    ,提供簡單而高效的文本分類和表徵學習的方法,性能比肩深度學習而且速度更快(學界 | Facebook研究者提出新型文本分類方法fastText:性能比肩深度學習而且速度更快)。更快、更好的文本分類人工智慧研究員面臨的一大技術挑戰是理解你所說話以及敲打出的文字的意義。但這項工作非常的重要。自動文本處理成為了人們每天與計算機交互的關鍵成分,它也是從網頁搜索和內容排名到垃圾過濾這些所有事情中的主要組成,而你卻完全看不見它。隨著在線數據量的增長,我們需要更靈活的工具去更好的理解這些內容,從而提供更準確的分類結果。
  • 乾貨| 深度學習在文本分類中的應用
    作者:llhthinker個人博客:http://www.cnblogs.com/llhthinker/1 文本分類任務介紹文本分類是自然語言處理的一個基本任務,試圖推斷出給定的文本(句子、文檔等)的標籤或標籤集合
  • 基於Word2Vector做文本分類
    綜上,我們需要基於商戶發布的職位標題/職位描述去進行文本分類,將商戶發布的職位類目和我們分析的結果進行對比,對於相關性很低的(比如商戶類目為程式設計師,我們分類結果是服務員),我們在展示頁面給予降權,使相應帖子不優先展示或者不展示。        本文將提出一種基於Word2Vector模型的文本分類方法解決上述問題。