科大訊飛:基於中斷循環神經網絡的文本分類

2020-12-05 讀芯術

ACL 2018

基於中斷循環神經網絡的文本分類

Disconnected Recurrent Neural Networks for Text Categorization

科大訊飛北京研究院HFL實驗室

IFLYTEK CO.,LTD

1 引言

文本分類任務是自然語言處理(NLP)領域最基礎和傳統的任務之一,該任務又會根據領域類型的不同分成很多子任務,例如情感分類、主題分類和問題分類等。很多機器學習的新方法都會先嘗試在文本分類任務上進行實驗驗證。例如深度學習中最常見的兩大類模型,卷積神經網絡(CNN)和循環神經網絡(RNN)及其變體,在文本分類中有很多應用。

RNN模型擅長對整個句子進行建模,捕捉長距離依賴信息。然而研究表明,RNN對整個句子建模有時會成為一種負擔,使模型忽略了關鍵的短語信息。CNN模型則正相反,更擅長抽取局部的位置不變特徵,而不擅長捕捉長距離依賴信息。為此,我們提出了DRNN模型,通過限制RNN模型信息的流動,將位置不變性引入RNN模型中。這使得DRNN模型既能捕捉長距離依賴信息,又可以很好地抽取關鍵短語信息。我們提出的模型在DBPedia,Yelp等多個文本分類數據集上取得了最好的效果。

2 模型介紹

表1是一個主題分類的例子,我們可以看到兩句話表意基本相同,都應該被分類到科技類。其中決定分類的關鍵短語是「unsolved mysteries of mathematics」,對於一個窗口大小為4的CNN模型來說,兩個句子中的該短語表示完全相同。然而,當我們把兩句話送入RNN模型的時候,因為RNN模型中,每一個時刻的隱層狀態都和前面所有詞語相關,所以這兩個短語的表示是完全不同的。這增大了模型捕捉關鍵短語的難度,使得RNN模型有時會忽視一些關鍵信息。

表格1 主題分類示例

為了解決上述問題,我們希望通過將位置不變性引入RNN模型中,使得RNN模型既可以捕捉長距離依賴信息,又可以更好地抽取位置不變的局部特徵。具體來說,我們會阻斷RNN模型的信息流動,使其最多只能傳遞固定的步長k。這樣的話,每個時刻的隱層狀態就只和當前詞以及前k-1個詞相關。

圖1 Disconnected Recurrent Neural Networks

圖1是RNN模型、DRNN模型和CNN模型的一個對比圖。如圖所示,對於RNN來說,隱層狀態h與前面所有的詞都相關,而對於DRNN,則只與當前詞及之前的k-1個詞相關。DRNN模型也可以被認為是一種特殊的CNN模型,只是將CNN模型中的卷積核替換成了RNN。顯然,DRNN和CNN一樣,對於長度為k的短語,無論它在文本中的什麼位置,都具有相同的表示。DRNN模型t時刻的隱藏層輸出可以表示成如下形式:

DRNN是一種通用的模型框架,可以應用在很多任務中,我們主要將其應用在文本分類任務中,對應的模型結構見圖2。我們採用GRU作為DRNN的循環單元,得到Disconnected Gated Recurrent Unit(DGRU)模型。我們首先將DGRU的每個隱層表示送入MLP中,來抽取更高層的特徵信息。然後再通過Max Pooling來抽取整個文本中最重要的信息,最後再通過一層MLP,然後送入softmax中進行分類。

圖2 整體模型結構

3 實驗結果與分析

我們在Zhang et al. (2015)提出的7個大規模文本分類數據集上進行實驗,其中AG語料是新聞,DBPedia語料來自於維基百科,Yelp和Amazon語料都是情感分析相關語料,Yahoo! Answers是問答數據集。

圖3 DGRU和CNN對比

我們將DRNN模型與CNN、LSTM和GRU進行了對比,從圖3中我們可以看到CNN模型的實驗效果隨著卷積核窗口大小的增大而不斷變差,其中CNN窗口為3時實驗效果最好。而對於DRNN來說,窗口為15時效果最佳。對於CNN來說,卷積核窗口越大,對應的參數也越多,模型更加容易過擬合。相比之下,在增大DRNN的窗口長度時,參數是保持不變的,因此可以有效地緩解過擬合問題。從表2中我們也可以看到DRNN的效果比LSTM、GRU和CNN更好。

表格2 對比實驗結果

我們還比較了不同循環單元和Pooling方法的實驗效果,如圖4所示。我們採用了nave RNN、LSTM和GRU作為DRNN的循環單元,其中對於naveRNN,當窗口增大的時候,效果快速下降,錯誤率甚至超過20%,因此沒有在圖中畫出。而GRU和LSTM對比,可以看到在DRNN中,GRU作為循環單元的效果更好。對於不同Pooling方法來說,Max pooling的效果最好,這是與max pooling可以更好地保持模型的位置不變性有關。

圖4 不同組件對比

我們發現DRNN的窗口大小太大或者太小都會導致模型的效果不佳,當窗口太大的時候,DRNN則更像RNN模型,丟失了位置不變性。而當窗口太小的時候,DRNN則更像CNN模型,缺失了長距離依賴的能力。因此選擇一個合適的窗口大小,對於DRNN模型來說很重要。我們對於最佳窗口的設置進行了研究,對應的實驗結果見圖5。研究表明最佳窗口大小和訓練數據的數據量關係不大,和任務類型關係明顯。因此我們在選擇最佳窗口的時候可以考慮先在小規模數據上進行實驗以選擇最佳窗口。

圖5 窗口相關實驗

最後,我們在7個文本分類任務上進行了實驗,實驗結果見表3。從表中,可以看到DRNN模型在文本分類任務上效果很好,比同樣是結合RNN與CNN特性的CRNN錯誤率相對下降10-50%。

表格3 實驗的錯誤率(%)

4 總結

我們根據CNN和RNN的各自特性,提出了DRNN模型,將位置不變性引入到RNN模型中,使得DRNN能同時捕捉關鍵短語信息和長距離依賴信息。實際採用DRNN模型時,選取一個好的窗口大小至關重要,實驗表明最佳窗口大小和訓練數據量無關,和任務類型有關。通常窗口大小為15到20的DRNN都能取得不錯的效果。

留言 點讚 發個朋友圈

我們一起探討AI落地的最後一公裡

相關焦點

  • 科大訊飛:希望有新的專門針對於神經網絡的計算架構改進
    背後的概念就是在特定領域上,做一些類似於強人工智慧的模式,但是我們究竟基於神經網絡做出來的東西,最終是不是強人工智慧,現在業界還不好說。目標非常遠,難度相應就會大,所以不可能做到真正像人一樣,說超腦就跟人腦一樣,實際上我們會約束它在一個特定領域上,在一個很窄的領域上,可能在某個特定領域上能達到一般人的智能,甚至超過人的水平,這是我們目標的設定,當然中間有一步步的步驟分解去做。
  • 科大訊飛有哪些子公司_網友中的科大訊飛怎麼樣
    訊飛教育包含以下子公司:合肥科大訊飛教育發展有限公司、蘇州科大訊飛教育科技有限公司、蘇州科大訊飛職業培訓學校、蘇州工業園區科大訊飛教育培訓中心。 訊飛教育的定位是高校計算機教育改革諮詢服務和應用人才培養服務提供商,主要業務包含:高校師資培養、高校人才培養體系改革優化諮詢服務實施、IT人才培養服務以及IT專業核心課程、最新技術應用課程、綜合素養課程等多層次教學資源產品服務提供等。
  • 北師大攜手科大訊飛發布「訊飛教育腦計劃」!
    二十多家聯盟成員單位齊聚北京,科大訊飛攜手其他聯盟單位重磅發布「訊飛教育腦計劃」,聚焦腦智科學前沿,分享年度研究成果,研討未來重點工作,以更好地服務國家基礎教育重大需求。1科大訊飛聯合中國兒童青少年腦智研究全國聯盟其他單位重磅發布「訊飛教育腦計劃」科大訊飛聯合北京師範大學等聯盟其他成員單位,發起了「訊飛教育腦計劃」,該計劃聚焦研究兒童青少年腦與心智發育和提升的新機制與新機理,探索個體學習與課堂教學的新方法與新形式。
  • 科大訊飛DCASE挑戰賽奪冠,「A.I.+工業」前景廣闊
    科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)在Task3任務中奪冠(截圖來源:DCASE挑戰賽官方網站)  這意味著,科大訊飛在人工智慧領域尤其是聲音定位與檢測技術上又有了長足進展
  • 科大訊飛 曉譯2.0翻譯器 南寧現貨買買買
    2.0更專業的發音,科大訊飛在國際語音合成大賽取得「十二連冠」的成,智能發音媲美真人發音;訊飛翻譯機2.0增加了拍照翻譯,覆蓋全場景翻譯需求,1300萬高清攝像頭,為旅遊識圖場景定製;科大訊飛翻譯機2.0兩種模式可選,標準模式:通過拍照,自動定位需要翻譯的文本,並在頁面上顯示翻譯內容。
  • PyTorch實現用於文本生成的循環神經網絡
    自然語言處理(NLP)有很多有趣的應用,文本生成就是其中一個有趣的應用。當一個機器學習模型工作在諸如循環神經網絡、LSTM-RNN、GRU等序列模型上時,它們可以生成輸入文本的下一個序列。PyTorch提供了一組功能強大的工具和庫,這些工具和庫為這些基於NLP的任務增添了動力。它不僅需要較少的預處理量,而且加快了訓練過程。
  • 科大訊飛翻譯機2.0奪得CES創新大獎 行業首發中俄離線翻譯
    在人工智慧領軍企業科大訊飛的展臺上,訊飛A.I。技術最新落地產品訊飛翻譯機2.0驚豔亮相。憑藉33種語言翻譯、多種連網方式、拍照翻譯、離線翻譯等創新功能,從數千件產品中脫穎而出,奪得本屆CES創新獎。早在17年,訊飛便基於神經網絡創新發布了NMT離線引擎。18年4月訊飛翻譯機2.0在北京發布,正式提出A.I。旗艦翻譯的四大標準:聽得清、聽得懂、譯得準、發音美。
  • ...科大訊飛認為高考才是考驗人工智慧的唯一標準!#2015創業邦100...
    )2014年,科大訊飛年度發布會上提出訊飛超腦計劃,提出將研發基於類人神經網絡的認知智能引擎,賦予機器從「能聽會說」到「能理解會思考」的能力,並希望研發出第一個中文認知智能計算引擎。2015年,訊飛超腦計劃階段性進展披露,目標讓機器人在2020年考上一本。創業邦曾做報導:《剛年滿1歲的訊飛超腦,真能讓機器人3年後考上大學?》,並認為除了其基於語音交互技術系列產品帶來的大數據和漣漪效應,科大訊飛新推出的人機互動新產品AIUI和其在人工智慧領域的布局將是關鍵。
  • 科大訊飛翻譯機曉譯2.0 長沙售1800元起
    圖為:科大訊飛翻譯機2.0  科大訊飛翻譯機2.0更專業的發音,科大訊飛在國際語音合成大賽取得「十二連冠」的成,智能發音媲美真人發音;訊飛翻譯機2.0增加了拍照翻譯,覆蓋全場景翻譯需求,1300萬高清攝像頭,為旅遊識圖場景定製;科大訊飛翻譯機2.0兩種模式可選,標準模式:通過拍照,自動定位需要翻譯的文本,並在頁面上顯示翻譯內容。
  • 科大訊飛2.0翻譯機津城特惠僅售2599元
    圖為:科大訊飛翻譯機2.0       科大訊飛翻譯機2.0更專業的發音,科大訊飛在國際語音合成大賽取得「十二連冠」的成,智能發音媲美真人發音;訊飛翻譯機2.0增加了拍照翻譯,覆蓋全場景翻譯需求,1300萬高清攝像頭,為旅遊識圖場景定製;科大訊飛翻譯機2.0兩種模式可選,標準模式:通過拍照,自動定位需要翻譯的文本,並在頁面上顯示翻譯內容。
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    Weaver發表《翻譯備忘錄》,第一次正式提出機器翻譯的思想,到傳統的基於短語的機器翻譯(PBMT:Phrase-Based Machine Translation),再到當今基於遞歸神經網絡(RNN:recurrent neural network)技術的神經網絡翻譯(NMT:Neural Machine Translation)的各種翻譯機和翻譯軟體的出現。
  • 人工智慧的未來 | 科大訊飛創始人劉慶峰:17年AI從業經驗,從這...
    當時在業界、輿論、圍棋界,絕大部分人都認為機器今年很難獲勝,但是科大訊飛在接受採訪時堅定認為機器一定大比分領先。為什麼?因為圍棋後臺的算法是基於深度神經網絡的應用,而這個神經網絡的應用,科大訊飛早在今年之前就已經在很多領域取得了很好的應用成效,全球的科技產業界也做了很好的探索。谷歌是把它用到了一個大家都很關注又喜聞樂見的圍棋領域。
  • 文本分類六十年
    此後,湧現出了更多通用的分類模型(習慣上稱之為分類器),比如KNN,SVM和RF,它們在文本分類任務上都運用很廣泛。最近,XGBoost和LightGBM這兩類模型表現出優異的分類性能。對於深度學習類模型,到目前為止TextCNN仍然佔據這類模型的最高引用量,其首次使用卷積神經網絡來解決文本分類問題。
  • 科大訊飛給你答案
    其實在今年9月的淘寶造物節,被賦予A.I.能力的「李佳琦」閃亮登場,在科大訊飛的展位憑實力圈粉。虛擬主播技術加持,「李佳琦」花式播報 在「未來造音社」,科大訊飛攜手天貓聯合推出A.I.新聞官,以李佳琦的形象和聲音為原型打造虛擬主播,為現場的觀眾播報造物節的新鮮趣聞。
  • 搜狗訊飛分獲IWSLT2018評測第一,到底哪個冠軍更有份量
    10月31日上午,科大訊飛和搜狗兩家公司幾乎在同一時間,都表示自己獲得了IWSLT2018國際口語機器翻譯評測比賽的第一名。看到這個奪冠「撞車」的消息,讓網友們不禁產生了強烈的疑惑:又不是並列第一名(搜狗明確說明了擊敗訊飛),這一個比賽裡為什麼會有兩個世界冠軍呢?
  • 光速執行AI運算,港科大雙層全光學神經網絡不要計算機也能做分類
    機器之心報導機器之心編輯部完全通過光學,不要計算機也能構建個神經網絡?港科大的研究團隊提出了一種全光學神經網絡,所有線性變換、激活函數通過光學模塊就能實現。港科大的全光學神經網絡是什麼在傳統混合光學的神經網絡中,光學組件通常用於線性運算,而非線性激活函數通常使用電子的方式實現。這主要因為非線性光學元器件需要高功率的雷射器,這在光學神經網絡中是很難實現的。為了克服這方面的問題,研究者使用具有電磁感應透明度的冷原子實現非線性函數。
  • 科大訊飛李世鵬:答AI技術的當下戰局,給AI創業者的九條建議 | CCF...
    而在人工智慧技術體系中,文本、語音、視覺是當下最火的三大關鍵技術,大數據、物聯網、雲計算又是當下三大關鍵技術體系,各類行業應用也都是基於這些技術進行的應用。儘管如此,隨著AI越來越深入行業,對算力、算法的要求越來越高,對計算架構的精準性、穩定性、並發性等關鍵性能要求越來越高,AI究竟會走向何處?
  • 六種方法解決LSTM循環神經網絡中的超長序列問題
    長短期記憶(LSTM)循環神經網絡可以學習和記憶長段序列的輸入。如果你的問題對於每個輸入都有一個輸出(如時間序列預測和文本翻譯任務),那麼 LSTM 可以運行得很好。但 LSTM 在面臨超長輸入序列——單個或少量輸出的情形時就會遇到困難了。這種問題通常被稱為序列標記,或序列分類。
  • 從CVPR到ICDAR 科大訊飛橫掃2019年度計算機視覺頂級會議多項冠軍
    從計算機視覺頂級會議CVPR的物體檢測挑戰賽DIW 2019到文檔分析與識別頂級會議ICDAR的手寫數學公式識別挑戰賽CROHME、場景文本視覺問答挑戰賽ST-VQA,這個6月不乏有一些計算機語言與人工智慧專業比賽陸續落幕。在這些行業賽事中,自然少不了科大訊飛的身影。
  • 實踐入門NLP:基於深度學習的自然語言處理
    同時,阿里IDST、騰訊NLP、科大訊飛等也在該榜單名列前茅。可以說,自然語言的研究歷史雖然還不是很長,但近些年在谷歌、IBM、斯坦福、阿里巴巴、Facebook等NLP領域的核心企業和研究所的推動下,其取得的成績,足以顯示它在人工智慧領域乃至整個計算機科學研究的重要性和廣闊應用前景。