深度學習在自然語言處理研究上的進展

2021-02-20 哈工大SCIR

聲明：本文轉載自微信公眾號「智能立方」

近年來，深度學習在人工智慧的多個子領域都取得了顯著的進展。在自然語言處理領域，雖然深度學習方法也收到越來越多的關注，在很多任務上也取得了一定效果，但是並沒有其它領域那麼顯著。傳統的主流自然語言處理方法是基於統計機器學習的方法，所使用的特徵大多數是基於onehot向量表示的各種組合特徵。這個特徵表示方式會導致特徵空間非常大，但也帶來一個優點。就是在非常高維的特徵空間中，很多任務上都是近似線性可分的。因此，在很多任務上，使用線性分類器就是可以取得比較滿意的性能。研究者更加關注於如何去提取能有效的特徵，也就是「特徵工程」。

和傳統統計機器學習不同，在自然語言處理中使用深度學習模型首先需要將特徵表示從離散的onehot向量表示轉換為連續的稠密向量表示，也叫分布式表示。分布式表示的一個優點是特徵之間存在「距離」概念，這對很多自然語言處理的任務非常有幫助。早期研究者採用比較保守的方法，將離散特徵的分布式表示作為輔助特徵引入傳統的算法框架，取得了一定的進展，但提升都不太顯著。近兩年來，隨著對深度學習算法的理解逐漸加深，越來越多的研究者開始從輸入到輸出全部採用深度學習模型，並進行端到端的訓練，在很多任務上取得了比較大的突破。本文從詞嵌入、基礎模型和應用三個方面簡要地回顧和梳理近兩年深度學習在自然語言處理領域的進展。

1.詞嵌入

自然語言由詞構成。深度學習模型首先需要將詞表示為稠密向量，也叫詞嵌入。早期研究者並沒有太多關注詞嵌入的語言學解釋，僅僅將其作為模型參數。因為詞嵌入是一個稠密向量，這樣不同詞嵌入就存在了距離（或相似度）。一個好的詞嵌入模型應該是：對於相似的詞，他們對應的詞嵌入也相近。因此很多研究者開始關注於如何得到高質量的詞嵌入。Mikolov等人[1]最早發現通過循環神經網絡模型可以學習到詞嵌入之間存在類比關係。比如apple−apples ≈ car−cars， man−woman ≈ king –queen等。Levy等人[3]在Skip-Gram模型[2]的基礎上，利用依存句法路徑作為上下文來學習詞嵌入。Pennington等人[4]直接利用詞和它的上下文的共現矩陣，加上一些正則化約束，通過加權最小二乘回歸來獲得詞嵌入。和Skip-Gram等模型相比，該方法能更好地利用全局信息，在語義類比等任務上取得了更好的結果。總體來說，這些方法都可以直接在大規模無標註語料上進行訓練。詞嵌入的質量也非常依賴於上下文窗口大小的選擇。通常大的上下文窗口學到的詞嵌入更反映主題信息，而小的上下文窗口學到的詞嵌入更反映詞的功能和上下文語義信息。

在此基礎上，也有研究者關注如何利用已有的知識庫來改進詞嵌入模型。Wang等人[5]結合知識圖譜和未標註語料在同一語義空間中來聯合學習知識和詞的向量表示，這樣可以更有效地實體詞的嵌入。Rothe等人[6]直接利用WordNet知識庫的詞和語義集的關係來學習詞嵌入，能更好地利用已有的知識庫。該論文獲得了ACL2015的最佳學生論文獎。

在上述研究中，一個詞只有一個向量表示。但是在自然語言中，一詞多義的現象經常存在。因此，如何表示一個詞的多個義項也是詞嵌入研究中的一個熱點。Neelakantan等人[7]在Skip-Gram模型的基礎上將一個詞的每個義項都用一個向量表示，在不同的上下文中選擇一個最相關的義項進行更新。然後通過非參估計的方法來自動學習每個詞的義項個數。Liu等人[8]利用主題模型來建模一詞多義的詞嵌入。首先利用概率主題模型來確定一個詞在不同上下文中的主題，然後用聯合建模詞和主題的嵌入。通過結合不同的主題，可以得到一個詞不同義項的向量表示。

2.基礎模型

在自然語言處理中，很多任務的輸入是變長的文本序列，而傳統分類器的輸入需要固定大小。因此，我們需要將變長的文本序列表示成固定長度的向量。

以句子為例，一個句子的表示（也稱為編碼）可以看成是句子中所有詞的語義組合。因此，句子編碼方法近兩年也受到廣泛關注。句子編碼主要研究如何有效地從詞嵌入通過不同方式的組合得到句子表示。其中，比較有代表性方法有四種。

第一種是神經詞袋模型，簡單對文本序列中每個詞嵌入進行平均，作為整個序列的表示。這種方法的缺點是丟失了詞序信息。對於長文本，神經詞袋模型比較有效。但是對於短文本，神經詞袋模型很難捕獲語義組合信息。

第二種方法是遞歸神經網絡，按照一個外部給定的拓撲結構（比如成分句法樹），不斷遞歸得到整個序列的表示[9]。遞歸神經網絡的一個缺點是需要給定一個拓撲結構來確定詞和詞之間的依賴關係，因此限制其使用範圍。一種改進的方式引入門機制來自動學習拓撲結構[10]。

第三種是循環神經網絡，將文本序列看作時間序列，不斷更新，最後得到整個序列的表示。但是簡單的循環神經網絡存在長期依賴問題，不能有效利用長間隔的歷史信息。因此，人們經常使用兩個改進的模型：長短時記憶神經網絡（LSTM）[11]和基於門機制的循環單元（GRU）[12]。

第四種是卷積神經網絡，通過多個卷積層和子採樣層，最終得到一個固定長度的向量。在一般的深度學習方法中，因為輸入是固定維數的，因此子採樣層的大小和層數是固定的。為了能夠處理變長的句子，一般採用兩種方式。一種是層數固定，但是子採樣的大小不固定。根據輸入的長度和最終向量的維數來動態確定子採樣層的大小[13]。另外一種是將輸入的句子通過加入零向量補齊到一個固定長度，然後利用固定大小的卷積網絡來得到最終的向量表示[14]。

在上述四種基本方法的基礎上，很多研究者綜合這些方法的優點，提出了一些組合模型。Tai等人[15]基於句法樹的長短時記憶神經網絡（Tree-LSTM）,將標準LSTM的時序結構改為語法樹結構，在文本分類上得到非常好提升。Zhu等人[16]提出了一種遞歸卷積神經網絡模型，在遞歸神經網絡的基礎上引入卷積層和子採樣層，這樣更有效地提取特徵組合，並且支持多叉樹的拓撲結構。

如果處理的對象是比句子更長的文本序列（比如篇章），為了降低模型複雜度，一般採用層次化的方法。先得到句子編碼，然後以句子編碼為輸入，進一步得到篇章的編碼。

在上述模型中，循環神經網絡因為非常適合處理文本序列，因此被廣泛應用在很多自然語言處理任務上。

3.應用

自然語言處理的應用非常廣泛，這裡我們主要回顧下文本匹配、機器翻譯、問答系統和自動文摘這四個比較有代表性的應用領域。

（1）文本匹配

文本匹配是計算給定兩個文本序列的相關度。自然語言處理的很多任務可以歸結為文本匹配任務，比如文本檢索、文本蘊涵、問答對匹配等。Hu等人[14]提出了兩種基於卷積神經網絡的文本匹配模型。一種是分別建模兩個句子，得到句子編碼。然後將兩個句子編碼輸入給多層感知器來計算它們的相似度。另一種是將兩個句子拼成一個矩陣，每一個矩陣元素是對應的兩個句子中相應位置上詞嵌入拼接而成的向量。然後利用兩維卷積網絡來建模相關性。Qiu等人[15]利用動態卷積神經網絡來建模句子編碼，並利用張量神經網絡來更加有效地建模它們之間的關係。Wan等人[16]利用雙向LSTM模型來分別建模兩個句子，然後按不同位置上雙向LSTM的輸出建立一個相似度矩陣，然後通過一個子採樣層輸入給多層感知器來建模相關度。這些方法都是採用端到端的訓練方法，非常有利於模型的優化。

（2）機器翻譯

早期的基於神經網絡的機器翻譯系統是在傳統模型中引入深度學習模型作為輔助特徵。比較有代表性的是，Devlin等人[17]將神經網絡語言模型引入到傳統機器翻譯框架的解碼過程，並取得了3個BLEU值的提升。該工作也得到了2014年ACL的最佳論文獎。之後，越來越多的研究者開始採用端到端的深度學習模型來進行機器翻譯。Sutskever等人[18]採用了單一神經網絡架構的序列到序列模型。首先利用一個LSTM模型來得到源語言的向量表示，然後再利用一個基於LSTM的語言模型來生成目標語言。序列到序列的機器翻譯模型如圖1所示。ABC為源語言，WXYZ為目標語言。Bahdanau等人[19]在序列到序列的機器翻譯模型的基礎上，在生成目標語言時，加入了注意力機制來自動學習目標詞在源語言上的對齊詞。Dong等人[20]利用多任務學習方法來聯合學習從一種源語言到多個目標語言的翻譯模型。通過在一對多的序列到序列的機器翻譯模型中共享源語言的表示，可以更有效地建模源語言端的編碼模型。Meng等人[21]利用神經圖靈機[22]來建立一個深層的記憶神經網絡，並取得了很好的翻譯效果。不同層的記憶之間通過控制器和讀寫操作進行交互。

圖1序列到序列的機器翻譯模型

（3）自動問答

自動問答是指給定一個背景語料庫或一些事實，系統可以自動分析輸入的問題，並利用語料庫中的知識給出答案。傳統的自動問答系統一般分為很多模塊。每個模型分別進行優化。隨著深度學習算法的不斷發展，人們開始關注如何學習一個端到端的完全基於神經網絡的自動問答模型。Kumar等人[24]提出了一個基於動態記憶神經網絡的自動問答系統。借鑑LSTM模型中的記憶模塊的想法，建立一個外部的記憶模塊，並用GRU模型來編碼給定的背景事實信息作為情景記憶，然後用另外一個GRU模型來得到問題的表示，然後利用注意力機制來建模問題表示和情景記憶之間的交互，並生成答案。整個系統可以進行端到端的聯合訓練。圖2給出了基於動態記憶神經網絡的自動問答系統示例。Sukhbaatar等人[24]也提出了一個類似的端到端的基於記憶神經網絡的自動問答模型。和Kumar等人的模型不同之處在於採用了不同的外部記憶模塊的表示機制以及不同的問答到情景記憶的交互機制。Hermann等人[25]利用雙向LSTM模型，提出了三種不同的交互機制建立問題和背景文檔的聯合表示，然後通過一個分類器來預測答案。

圖2基於動態記憶神經網絡的自動問答系統

（4）自動文摘

自動文摘是指自動地從原始文章中提取一個簡短的能夠全面反映原文內容的摘要。自動文摘有兩個類型：一種是抽取式文摘，從原始文章中抽取一些代表性的句子。另一種是理解式文摘，先理解原始文章，在通過自然語言生成來產生摘要。受到傳統方法的限制，以前的自動文摘一般是抽取式文摘，並且研究進展緩慢，逐漸受到冷落。自動文摘又開始逐漸成為研究熱點。一開始研究者關注於如何利用分布式表示來改進抽取式文摘方法中的句子之間的相似度計算[25][27]。隨著深度學習在統計語言模型的成功，並在端到端機器翻譯模型的啟發下，研究者開始關注如何直接建立一個端到端的基於神經網絡的理解式自動文摘系統。Rush等人[25]利用嘗試利用神經詞袋模型、卷積神經網絡模型以及基於注意力的卷積神經網絡模型來得到原始文章的向量表示，然後再通過神經語言模型來生成摘要。通過大規模的訓練數據，在DUC自動文摘數據集上取得了很好的效果。

綜上所述，深度學習在自然語言處理領域的進展非常迅速。兩年前人們還認為深度學習對語言這種非自然信號並不有效。通過這兩年的發展，深度學習方法已經在自然語言處理的很多任務上都取得了很大的進展，並超越了傳統統計學習的方法。雖然取得的進展和語音識別、計算機視覺領域相比還不太顯著，但是已經大大提升了研究者對深度學習在自然語言處理領域上的預期。此外，隨著對深度學習認識的加深，研究者逐漸開始擺脫傳統自然語言處理框架的限制，採用全新的深度學習框架來進行端到端的自然語言處理，並且也催生了很多新的應用，比如看圖說話、自動寫作等。相信未來幾年，深度學習方法在自然語言處理領域會取得更大的突破。

參考文獻

[1] Tomas Mikolov, KaiChen, Greg Corrado & Jeffrey Dean, Efficient estimation of wordrepresentations in vector space, arXiv preprint arXiv:1301.3781, 2013.
[2] Tomas Mikolov, IlyaSutskever, Kai Chen, Greg S Corrado & Jeff Dean, DistributedRepresentations of Words and Phrases and their Compositionality, , 2013.
[3] Omer Levy & YoavGoldberg, Dependency based word embeddings, In Proceedings of the 52nd AnnualMeeting of the Association for Computational Linguistics, pp. 302—308, 2014.
[4] Jeffrey Pennington,Richard Socher & Christopher D Manning, Glove: Global vectors for wordrepresentation, Proceedings of theEmpiricial Methods in Natural Language Processing (EMNLP 2014), Vol. 12, pp.1532—1543, 2014.
[5] Zhen Wang, JianwenZhang, Jianlin Feng & Zheng Chen, Knowledge graph and text jointlyembedding, In Proceedings of the 2014 Conference on Empirical Methods inNatural Language Processing (EMNLP). Association for Computational Linguistics,pp. 1591—1601, 2014.
[6] Sascha Rothe &Hinrich Schűtze, AutoExtend: Extending word embeddings to embeddings forsynsets and lexemes, arXiv preprintarXiv:1507.01127, 2015.
[7] Arvind Neelakantan,Jeevan Shankar, Alexandre Passos & Andrew McCallum, EfficientNon-parametric Estimation of Multiple Embeddings per Word in Vector Space, InProceedings of the Conference on Empirical Methods in Natural LanguageProcessing (EMNLP), 2014.
[8] Yang Liu, ZhiyuanLiu, Tat-Seng Chua & Maosong Sun, Topical Word Embeddings, In AAAI, 2015.
[9] Richard Socher, CliffC Lin, Chris Manning & Andrew Y Ng, Parsing natural scenes and naturallanguage with recursive neural networks, In Proceedings of the 28thInternational Conference on Machine Learning (ICML-11), pp. 129—136, 2011.
[10] Xinchi Chen, XipengQiu, Chenxi Zhu, Shiyu Wu & Xuanjing Huang, Sentence Modeling with GatedRecursive Neural Network, In Proceedings of the Conference on Empirical Methodsin Natural Language Processing (EMNLP), 2015.
[11] Sepp Hochreiter &Jűrgen Schmidhuber, Long short-term memory, Neural computation, Vol. 9(8), pp. 1735—1780, MIT Press, 1997.
[12] Junyoung Chung,Caglar Gulcehre, KyungHyun Cho & Yoshua Bengio, Empirical Evaluation ofGated Recurrent Neural Networks on Sequence Modeling, arXiv preprint arXiv:1412.3555, 2014.
[13] Nal Kalchbrenner,Edward Grefenstette & Phil Blunsom, A Convolutional Neural Network forModelling Sentences, In Proceedings of ACL, 2014.
[14] Baotian Hu, ZhengdongLu, Hang Li & Qingcai Chen, Convolutional neural network architectures formatching natural language sentences, In Advances in Neural InformationProcessing Systems, 2014.
[15] Kai Sheng Tai,Richard Socher & Christopher D Manning, Improved semantic representationsfrom tree-structured long short-term memory networks, arXiv preprint arXiv:1503.00075, 2015.
[16] Chenxi Zhu, XipengQiu, Xinchi Chen & Xuanjing Huang, A Re-Ranking Model For Dependency ParserWith Recursive Convolutional Neural Network, In Proceedings of Annual Meetingof the Association for Computational Linguistics (ACL), 2015.
[17] Xipeng Qiu &Xuanjing Huang, Convolutional Neural Tensor Network Architecture forCommunity-based Question Answering, In Proceedings of International JointConference on Artificial Intelligence (IJCAI), 2015.
[18] Shengxian Wan, YanyanLan, Jiafeng Guo, Jun Xu, Liang Pang & Xueqi Cheng, A Deep Architecture forSemantic Matching with Multiple Positional Sentence Representations, In AAAI,2016.
[19] Jacob Devlin, RabihZbib, Zhongqiang Huang, Thomas Lamar, Richard Schwartz & John Makhoul, Fastand robust neural network joint models for statistical machine translation, InProceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,pp. 1370—1380, 2014.
[20] Ilya Sutskever, OriolVinyals & Quoc VV Le, Sequence to sequence learning with neural networks,In Advances in Neural Information Processing Systems, pp. 3104—3112, 2014.
[21] D. Bahdanau, K. Cho& Y. Bengio, Neural Machine Translation by Jointly Learning to Align andTranslate, ArXiv e-prints, 2014.
[22] Daxiang Dong, Hua Wu,Wei He, Dianhai Yu & Haifeng Wang, Multi-task learning for multiplelanguage translation, ACL, 2015.
[23] Fandong Meng,Zhengdong Lu, Zhaopeng Tu, Hang Li & Qun Liu, Neural TransformationMachine: A New Architecture for Sequence-to-Sequence Learning, arXiv preprint arXiv:1506.06442, 2015.
[24] Alex Graves, GregWayne & Ivo Danihelka, Neural Turing Machines, arXiv preprint arXiv:1410.5401, 2014.
[25] Ankit Kumar, Ozan Irsoy,Jonathan Su, James Bradbury, Robert English, Brian Pierce, Peter Ondruska,Ishaan Gulrajani & Richard Socher, Ask me anything: Dynamic memory networksfor natural language processing, arXivpreprint arXiv:1506.07285, 2015.
[26] Sainbayar Sukhbaatar,Jason Weston, Rob Fergus & others, End-to-end memory networks, In Advancesin Neural Information Processing Systems, pp. 2431—2439, 2015.
[27] Karl Moritz Hermann,Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman& Phil Blunsom, Teaching machines to read and comprehend, In Advances inNeural Information Processing Systems, pp. 1684—1692, 2015.
[28] Mikael Kågebäck, OlofMogren, Nina Tahmasebi & Devdatt Dubhashi, Extractive summarization usingcontinuous vector space models, In Proceedings of the 2nd Workshop onContinuous Vector Space Models and their Compositionality (CVSC)@ EACL, pp.31—39, 2014.
[29] Wenpeng Yin &Yulong Pei, Optimizing sentence modeling and selection for documentsummarization, In Proceedings of the 24th International Conference onArtificial Intelligence, pp. 1383—1389, 2015.
[30] Alexander M. Rush, Sumit Chopra & Jason Weston, ANeural Attention Model for Abstractive Sentence Summarization, In Proceedingsof the 2015 Conference on Empirical Methods in Natural Language Processing,Lisbon, Portugal, pp. 379—389, Association for Computational Linguistics,2015.

作者簡介：邱錫鵬，復旦大學副教授。主要研究領域包括統計機器學習和自然語言處理等，並且在上述領域的頂級期刊、會議上發表過30餘篇論文。在實際應用方面，開發了一系列有自主智慧財產權、達到國際先進水平的應用模塊，並發布了開源中文自然語言處理工具FNLP，目前已被國內外數十家科研單位以及數百家企業使用。

「哈工大SCIR」公眾號

編輯部：郭江，李家琦，徐俊，李忠陽，俞霖霖

本期編輯：李忠陽

長按下圖並點擊「識別圖中二維碼」，即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號：」哈工大SCIR」。點擊左下角「閱讀原文」，即可查看原文。

深度學習在自然語言處理研究上的進展

相關焦點

自然語言處理終極方向:深度學習用於自然語言處理的5大優勢

深度學習在自然語言處理上的七大應用

自然語言處理深度學習的7個應用

實踐入門NLP:基於深度學習的自然語言處理

從語言學到深度學習NLP,一文概述自然語言處理

【CCCF專題】深度學習在自然語言處理中的應用

自動化所自然語言處理方法研究獲進展

深度| 自然語言處理領域深度學習研究總結:從基本概念到前沿成果

CCCF專欄 | 自然語言處理中的深度學習:評析與展望

自然語言處理深度學習活躍研究領域概覽 | 網際網路數據資訊網-199IT...

【模式國重】語音語言信息處理重要研究進展

資料|普林斯頓大學陳丹琦主講2020課程《深度學習自然語言處理...

基於大數據與深度學習的自然語言對話

貝葉斯深度學習研究進展

CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?

著名人工實驗室的前沿研究和深度學習最新進展

自然語言處理(NLP)中的深度學習發展史和待解難題

NLP研究入門之道:自然語言處理簡介

獨家| 人工智慧學習篇7:自然語言處理開源框架

模式識別學科發展報告丨七、語音語言信息處理重要研究進展