2020 年 5 月 23 日上午,在中國中文信息學會青年工作委員會主辦、北京智源人工智慧研究院和美團點評承辦的「ACL-IJCAI-SIGIR 頂級會議論文報告會(AIS 2020)」中,智源青年科學家、清華大學計算機科學技術系博士生導師、長聘副教授賈珈作了題為《NLP in IJCAI 2020》的報告。
賈珈,智源青年科學家,清華大學計算機科學技術系擔任博士生導師、長聘副教授,中國計算機學會語音對話和聽覺專委會秘書長,中國中文信息學會語音專業委員會秘書長,主要負責學會青年工作委員會學生委員工作,主要研究方向為情感計算。
IJCAI是人工智慧領域的頂級國際學術會議,在演講中,賈珈基於IJCAI 2020的錄用論文內容,按算法層面和任務層面兩個維度,從無監督預訓練、跨語言學習、元學習和少樣本學習、遷移學習、誤差、知識融合、問答、自然語言生成、多模態這九個方面介紹了關於自然語言處理的主要成果和研究趨勢。
下面是賈珈演講的精彩要點介紹。
整理:智源社區 羅麗
一、IJCAI 2020詞雲圖中的NLP熱點
IJCAI 2020中有80餘篇論文和自然語言處理相關,通過對關鍵詞做詞雲分析,我們可以發現,深度學習在自然語言處理當中仍然佔據主導型地位。
圖1:歷年IJCAI NLP論文數量及關鍵詞「詞雲」分析
除了深度學習之外,詞雲當中還包含2020年的其他研究熱點,主要總結為以下四個方面:
(1)生成類的任務,如對話生成、段落生成。
(2)網絡結構設計,在網絡結構設計當中研究者們非常喜歡用Attention。
(3)實體關係抽取和實體識別,在今年的IJCAI中,實體關係抽取和實體識別被廣泛進行相關的研究。
(4)與神經網絡結合設計模型框架,越來越多的研究者注重利用知識和神經網絡結合的方式來設計自己的模型框架。
接下來,賈珈主要從兩個維度(算法層面,任務層面)、九個方面對IJCAI 2020中NLP相關研究進行了總結。
圖2:IJCAI NLP研究中的9個highlights
二、算法層面對NLP的研究總結
1.無監督預訓練
預訓練語言模型一直是NLP領域的研究熱點,它極大地提升了各大NLP任務的性能。
圖3:有關BERT的通用語言模型
圖3是在BERT出現後,有關BERT的一系列通用語言模型。在IJCAI 2020中,也有相關工作聚焦到了語言模型的預訓練當中,這些預訓練的語言模型中,既包含了通用的預訓練模型,如EViLBERT模型[1]、AdaBERT模型[2],也包含了某一個特定任務上的預訓練模型,如BERT-INT模型[3]、BERT-PLI模型[4]和FinBERT模型[5]。
EViLBERT模型是通過多模態預訓練的語言模型淘汰Image caption(圖像描述),取得了較好的效果;AdaBERT模型是利用網絡結構搜索進行參數壓縮,解決BERT耗時長、參數量大的問題;BERT-INT解決知識圖譜的對齊問題;BERT-PLI解決的是法律條文檢索的問題;FinBERT解決的是金融文本挖掘的問題。
BERT的出現,已經極大地推動了NLP領域的發展,賈珈推測,NLP圍繞BERT的相關研究在未來幾年主要體現在這兩個方面:
(1)如何加快無監督的語言模型訓練過程;
(2)如何通過減少時間開銷,尋找更好的網絡結構。
2.跨語言學習
近年來,NLP領域對跨語言學習的研究愈發關注,有著很大的現實需求。在 IJCAI 2020中也涉及到如何解決跨語言的問題,它的意義在於一方面可以促進文化交流,另一方面,也更重要的是,它可以極大地促進NLP技術在大量非英語場景下的部署,包括Word-embedding事例、Unsupervised模型、機器翻譯等都是相應的熱點。
圖4:跨語言學習的示例
圖4為跨語言學習的一個示例,通過學習跨語言的Word embedding,跨語言中有相似意義的詞包含了相似的向量。
在無監督的跨語言模型研究中,跨語言模型的預訓練是大家關注的一個熱點。在IJCAI2020中,UniTrans[6] 研究了無監督的跨語言實體識別方法,也有研究者探究了跨語言模型中無監督Domain adaptation問題[7]。
相比於無監督方法,在跨語言的有關研究中,有監督方法的效果更好,平行語料庫在機器翻譯等問題上仍至關重要。在IJCAI 2020有監督的跨語言的研究中,有文章探究了用平行語料庫生成跨語言複述的問題[8],也就是Bilingual Generation,也有研究用跨語言標註嘗試解決語義消息的問題[9]。
此外,機器翻譯也是跨語言研究的一個重要方向,在IJCAI2020中,共有七篇機器翻譯的相關論文。
3.元學習和少樣本學習
近年來,Meta-learning(元學習)和Few shot learning(少樣本學習)逐漸成為學術界的研究熱點,在IJCAI 2020中,主要探究了兩種方式在NLP領域的應用,其中Few shot learning在各種分類任務中應用較為廣泛,通過Few shot learning,神經網絡可以用很少的樣本就泛化到新的類別上;而Meta-learning是實現Few shot learning的重要手段,算法以MAML(Model-Agnostic Meta-Learning)為代表。
在IJCAI 2020中,也有幾篇論文探究了Meta learning和Few shot learning在NLP領域的應用,如:QA via Meta-Learning[10]一文中,作者用Meta learning研究了複雜知識庫下的問答模型;在Few shot learning的研究中,有研究者探究了Few shot learning在醫學+NLP領域的應用[11],通過Few shot learning技術,可以根據病例對疾病進行分類。
4.遷移學習
遷移學習作為機器學習長期以來的研究熱點,在IJCAI2020的研究中很火熱。在深度學習流行的今天,如何將已經學習到的知識遷移到已有的領域,尤其是如何將大規模無標註的語料中所包含的知識遷移到各個任務上,受到了研究者的廣泛關注。
在遷移學習中,最為典型的模式是預訓練+Fine tune,這一模式隨著BERT的普及越發地得到了NLP研究者的關注。
另一方面,不同於簡單的預訓練+Fine tune的模式,很多研究者致力於探索更先進的遷移學習框架,在IJCAI2020中,有研究談及了閱讀理解下的知識遷移[12],還有人研究有關文本風格的遷移[13]。
遷移學習除了任務層面上的遷移,還有數據集層面的遷移(Domain adaptation),在IJCAI 2020中,文章《Domain Adaptation for Semantic Parsing》[14]介紹了語法分析的Domain adaptation,這些研究都是對更先進的框架進行探討,也值得大家更進一步地跟蹤和關注。
5.誤差
在NLP領域中,由於數據集不均衡的原因,以及各種各樣的固有偏見,會出現各種各樣的Bias,比如性別上的Bias和種族上的Bias,如果對這些Bias不加處理便會導致不同群體間的歧視。
圖5:Bias in NLP的示例
以圖5為例,當我們對Word embedding(詞向量)進行可視化時便會發現,有大量單詞的Embedding是和性別有相關性的,例如Brilliant, Genius這樣的詞彙在Embedding中往往和男性更相關,而Dance和Beautiful等這些詞彙一般和女性更相關,如何消除這種bias對NLP算法來說至關重要。
在IJCAI 2020中,有數篇論文和NLP當中的Bias 相關,在論文WEFE[15]中,作者提出了一套測試Word embedding是否Fair的框架,還有一篇則是研究者提出了新的測試方法和測試平臺,並對NLP模型中的公平性做出了嚴格的測試[16]。
6.知識融合
儘管大規模的語料在NLP模型中被廣泛使用,但目前NLP研究對大規模語料缺乏結構化的認識,特別是對複雜語言的理解能力,所以近些年來很多研究者開始嘗試將知識圖譜等結構化的知識融合到自然語言處理的框架中,如ACL 2019中的ERNIE框架[17]。
圖6:知識融合的示例
圖6為ERNIE一文中給出的例子。其中,實線表示現有的知識,紅色或綠色的虛線表示從句子中提取的事實,通過結構化知識的融入,對句子中的實體關係抽取可以達到更好地效果。
有很多研究者將聚焦在如何將知識融入到NLP模型中,在IJCAI 2020中,共有10篇相關論文,這10篇文章主要分為兩類:
(1)用知識圖譜增強原來的NLP任務的性能。其中:有用知識提升閱讀理解的效果[18];有用知識提升QA的效果[19];有關於事件的因果性檢測[20];有介紹神經機器翻譯[21];有研究對話生成[22]。
(2)用知識圖譜構建、補全和生成知識。在有關知識圖譜的構建與補全工作中,Mucko[23]探究了跨模態的知識推理;BERT-INT[24]探究了知識圖譜的對齊;TransOMCS[25]則研究了如何生成常識性知識。這些都是IJCAI 2020 在知識圖譜的構建和補全方面比較有代表性的工作。
三、任務層面對NLP的研究總結
1.問答
近年來,有關QA的研究已經從Simple QA逐漸演化發展為Complex QA。Simple QA可以理解為簡單的模式匹配,而Complex QA通常需要推理,甚至多跳推理(Multi-hop reasoning)。在IJCAI 2020中,有三篇論文探究了將知識圖譜和QA相結合,以實現更複雜的QA,它們分別是,Mucko[26]、Retrieve, Program, Repeat[27]、和《Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Base》[28],而研究LogiQA[29]和《Two-Phase Hypergraph Based Reasoning with Dynamic Relations for Multi-Hop KBQA》[30]談及了QA中的推理和多跳推理問題,QA通常還會和其它任務結合,形成多任務框架,以提升多個任務的效果。
在IJCAI2020中,有研究將QA和閱讀理解,實體關係抽取結合[31],有將QA和文本生成任務相結合[32],這些都是將Multi-task和QA相結合的比較好的模板研究。
2. 自然語言生成
自然語言生成有著廣闊的應用前景,也是近年來的研究熱點,而在深度學習普及之前,傳統的NLG需要內容規劃,信息聚合,語法分析等多個步驟,在GAN,VAE等生成模型,以及Sequence2Sequence,Transformer等序列模型出現後,基於深度學習的自然語言生成得到了長足的發展。
在IJCAI 2020中,有大量的工作聚焦在了NLG這一問題上,共有12篇工作研究了生成問題。這些文章分散在不同的任務、目標生成,比如對話生成[33]、複述生成[34]、答覆生成[35]以及法律文本生成[36]和評論生成[37],還有不少研究談及通用的NLG生成框架,將來可以很好地普適應用於各個任務上。由於預訓練模型的快速發展,在IJCAI 2020中,出現了將預訓練模型和NLG結合進行的研究ERNIE-GEN[38],也有研究結構化的數據生成文本[39]和利用NLG生成預料Matric平衡語料[40],因此,在NLP中,自然語言生成已經具有全方位的研究,這也體現了在NLP領域中,IJCAI會議的受歡迎程度。
3.多模態
多模態(Multi-modality),尤其是將文本和其它的語音、視頻、圖像的模態相結合,一直以來都是研究的熱點話題,也是IJCAI 2020中非常重要的一個研究部分,今年一共有7篇和Multi-modality相關的研究。
視覺問答(Visual Question Answering,VQA)作為研究熱點之一,在IJCAI 2020中有4篇論文,分別從知識推理[41]、自監督[42]和網絡設計[43]等角度去研究如何通過可視化信息增強QA效果。有研究是通過視頻語義推理以達到更好的檢索效果[44],還有關於視覺-語音的導航(Navigation)[45],研究通過模型對語言和圖像同時進行理解,把語言當中描述的位置以及關鍵點定位到真實場景圖像當中,然後執行相對應的動作,以避免環境造成的bias問題,增加導航魯棒性。由於BERT的快速發展,IJCAI2020當中,有很多研究和視覺模態結合來做預訓練模型,在各項跨模態的任務當中取得了很好的效果。
來源: 北京智源人工智慧研究院微信公眾號