自然語言處理中的9個不可不知的研究熱點

2020-12-23 高校科技進展

2020 年 5 月 23 日上午,在中國中文信息學會青年工作委員會主辦、北京智源人工智慧研究院和美團點評承辦的「ACL-IJCAI-SIGIR 頂級會議論文報告會(AIS 2020)」中,智源青年科學家、清華大學計算機科學技術系博士生導師、長聘副教授賈珈作了題為《NLP in IJCAI 2020》的報告。

賈珈,智源青年科學家,清華大學計算機科學技術系擔任博士生導師、長聘副教授,中國計算機學會語音對話和聽覺專委會秘書長,中國中文信息學會語音專業委員會秘書長,主要負責學會青年工作委員會學生委員工作,主要研究方向為情感計算。

IJCAI是人工智慧領域的頂級國際學術會議,在演講中,賈珈基於IJCAI 2020的錄用論文內容,按算法層面和任務層面兩個維度,從無監督預訓練、跨語言學習、元學習和少樣本學習、遷移學習、誤差、知識融合、問答、自然語言生成、多模態這九個方面介紹了關於自然語言處理的主要成果和研究趨勢。

下面是賈珈演講的精彩要點介紹。

整理:智源社區 羅麗

一、IJCAI 2020詞雲圖中的NLP熱點

IJCAI 2020中有80餘篇論文和自然語言處理相關,通過對關鍵詞做詞雲分析,我們可以發現,深度學習在自然語言處理當中仍然佔據主導型地位。

圖1:歷年IJCAI NLP論文數量及關鍵詞「詞雲」分析

除了深度學習之外,詞雲當中還包含2020年的其他研究熱點,主要總結為以下四個方面:

(1)生成類的任務,如對話生成、段落生成。

(2)網絡結構設計,在網絡結構設計當中研究者們非常喜歡用Attention。

(3)實體關係抽取和實體識別,在今年的IJCAI中,實體關係抽取和實體識別被廣泛進行相關的研究。

(4)與神經網絡結合設計模型框架,越來越多的研究者注重利用知識和神經網絡結合的方式來設計自己的模型框架。

接下來,賈珈主要從兩個維度(算法層面,任務層面)、九個方面對IJCAI 2020中NLP相關研究進行了總結。

圖2:IJCAI NLP研究中的9個highlights

二、算法層面對NLP的研究總結

1.無監督預訓練

預訓練語言模型一直是NLP領域的研究熱點,它極大地提升了各大NLP任務的性能。

圖3:有關BERT的通用語言模型

圖3是在BERT出現後,有關BERT的一系列通用語言模型。在IJCAI 2020中,也有相關工作聚焦到了語言模型的預訓練當中,這些預訓練的語言模型中,既包含了通用的預訓練模型,如EViLBERT模型[1]、AdaBERT模型[2],也包含了某一個特定任務上的預訓練模型,如BERT-INT模型[3]、BERT-PLI模型[4]和FinBERT模型[5]。

EViLBERT模型是通過多模態預訓練的語言模型淘汰Image caption(圖像描述),取得了較好的效果;AdaBERT模型是利用網絡結構搜索進行參數壓縮,解決BERT耗時長、參數量大的問題;BERT-INT解決知識圖譜的對齊問題;BERT-PLI解決的是法律條文檢索的問題;FinBERT解決的是金融文本挖掘的問題。

BERT的出現,已經極大地推動了NLP領域的發展,賈珈推測,NLP圍繞BERT的相關研究在未來幾年主要體現在這兩個方面:

(1)如何加快無監督的語言模型訓練過程;

(2)如何通過減少時間開銷,尋找更好的網絡結構。

2.跨語言學習

近年來,NLP領域對跨語言學習的研究愈發關注,有著很大的現實需求。在 IJCAI 2020中也涉及到如何解決跨語言的問題,它的意義在於一方面可以促進文化交流,另一方面,也更重要的是,它可以極大地促進NLP技術在大量非英語場景下的部署,包括Word-embedding事例、Unsupervised模型、機器翻譯等都是相應的熱點。

圖4:跨語言學習的示例

圖4為跨語言學習的一個示例,通過學習跨語言的Word embedding,跨語言中有相似意義的詞包含了相似的向量。

在無監督的跨語言模型研究中,跨語言模型的預訓練是大家關注的一個熱點。在IJCAI2020中,UniTrans[6] 研究了無監督的跨語言實體識別方法,也有研究者探究了跨語言模型中無監督Domain adaptation問題[7]。

相比於無監督方法,在跨語言的有關研究中,有監督方法的效果更好,平行語料庫在機器翻譯等問題上仍至關重要。在IJCAI 2020有監督的跨語言的研究中,有文章探究了用平行語料庫生成跨語言複述的問題[8],也就是Bilingual Generation,也有研究用跨語言標註嘗試解決語義消息的問題[9]。

此外,機器翻譯也是跨語言研究的一個重要方向,在IJCAI2020中,共有七篇機器翻譯的相關論文。

3.元學習和少樣本學習

近年來,Meta-learning(元學習)和Few shot learning(少樣本學習)逐漸成為學術界的研究熱點,在IJCAI 2020中,主要探究了兩種方式在NLP領域的應用,其中Few shot learning在各種分類任務中應用較為廣泛,通過Few shot learning,神經網絡可以用很少的樣本就泛化到新的類別上;而Meta-learning是實現Few shot learning的重要手段,算法以MAML(Model-Agnostic Meta-Learning)為代表。

在IJCAI 2020中,也有幾篇論文探究了Meta learning和Few shot learning在NLP領域的應用,如:QA via Meta-Learning[10]一文中,作者用Meta learning研究了複雜知識庫下的問答模型;在Few shot learning的研究中,有研究者探究了Few shot learning在醫學+NLP領域的應用[11],通過Few shot learning技術,可以根據病例對疾病進行分類。

4.遷移學習

遷移學習作為機器學習長期以來的研究熱點,在IJCAI2020的研究中很火熱。在深度學習流行的今天,如何將已經學習到的知識遷移到已有的領域,尤其是如何將大規模無標註的語料中所包含的知識遷移到各個任務上,受到了研究者的廣泛關注。

在遷移學習中,最為典型的模式是預訓練+Fine tune,這一模式隨著BERT的普及越發地得到了NLP研究者的關注。

另一方面,不同於簡單的預訓練+Fine tune的模式,很多研究者致力於探索更先進的遷移學習框架,在IJCAI2020中,有研究談及了閱讀理解下的知識遷移[12],還有人研究有關文本風格的遷移[13]。

遷移學習除了任務層面上的遷移,還有數據集層面的遷移(Domain adaptation),在IJCAI 2020中,文章《Domain Adaptation for Semantic Parsing》[14]介紹了語法分析的Domain adaptation,這些研究都是對更先進的框架進行探討,也值得大家更進一步地跟蹤和關注。

5.誤差

在NLP領域中,由於數據集不均衡的原因,以及各種各樣的固有偏見,會出現各種各樣的Bias,比如性別上的Bias和種族上的Bias,如果對這些Bias不加處理便會導致不同群體間的歧視。

圖5:Bias in NLP的示例

以圖5為例,當我們對Word embedding(詞向量)進行可視化時便會發現,有大量單詞的Embedding是和性別有相關性的,例如Brilliant, Genius這樣的詞彙在Embedding中往往和男性更相關,而Dance和Beautiful等這些詞彙一般和女性更相關,如何消除這種bias對NLP算法來說至關重要。

在IJCAI 2020中,有數篇論文和NLP當中的Bias 相關,在論文WEFE[15]中,作者提出了一套測試Word embedding是否Fair的框架,還有一篇則是研究者提出了新的測試方法和測試平臺,並對NLP模型中的公平性做出了嚴格的測試[16]。

6.知識融合

儘管大規模的語料在NLP模型中被廣泛使用,但目前NLP研究對大規模語料缺乏結構化的認識,特別是對複雜語言的理解能力,所以近些年來很多研究者開始嘗試將知識圖譜等結構化的知識融合到自然語言處理的框架中,如ACL 2019中的ERNIE框架[17]。

圖6:知識融合的示例

圖6為ERNIE一文中給出的例子。其中,實線表示現有的知識,紅色或綠色的虛線表示從句子中提取的事實,通過結構化知識的融入,對句子中的實體關係抽取可以達到更好地效果。

有很多研究者將聚焦在如何將知識融入到NLP模型中,在IJCAI 2020中,共有10篇相關論文,這10篇文章主要分為兩類:

(1)用知識圖譜增強原來的NLP任務的性能。其中:有用知識提升閱讀理解的效果[18];有用知識提升QA的效果[19];有關於事件的因果性檢測[20];有介紹神經機器翻譯[21];有研究對話生成[22]。

(2)用知識圖譜構建、補全和生成知識。在有關知識圖譜的構建與補全工作中,Mucko[23]探究了跨模態的知識推理;BERT-INT[24]探究了知識圖譜的對齊;TransOMCS[25]則研究了如何生成常識性知識。這些都是IJCAI 2020 在知識圖譜的構建和補全方面比較有代表性的工作。

三、任務層面對NLP的研究總結

1.問答

近年來,有關QA的研究已經從Simple QA逐漸演化發展為Complex QA。Simple QA可以理解為簡單的模式匹配,而Complex QA通常需要推理,甚至多跳推理(Multi-hop reasoning)。在IJCAI 2020中,有三篇論文探究了將知識圖譜和QA相結合,以實現更複雜的QA,它們分別是,Mucko[26]、Retrieve, Program, Repeat[27]、和《Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Base》[28],而研究LogiQA[29]和《Two-Phase Hypergraph Based Reasoning with Dynamic Relations for Multi-Hop KBQA》[30]談及了QA中的推理和多跳推理問題,QA通常還會和其它任務結合,形成多任務框架,以提升多個任務的效果。

在IJCAI2020中,有研究將QA和閱讀理解,實體關係抽取結合[31],有將QA和文本生成任務相結合[32],這些都是將Multi-task和QA相結合的比較好的模板研究。

2. 自然語言生成

自然語言生成有著廣闊的應用前景,也是近年來的研究熱點,而在深度學習普及之前,傳統的NLG需要內容規劃,信息聚合,語法分析等多個步驟,在GAN,VAE等生成模型,以及Sequence2Sequence,Transformer等序列模型出現後,基於深度學習的自然語言生成得到了長足的發展。

在IJCAI 2020中,有大量的工作聚焦在了NLG這一問題上,共有12篇工作研究了生成問題。這些文章分散在不同的任務、目標生成,比如對話生成[33]、複述生成[34]、答覆生成[35]以及法律文本生成[36]和評論生成[37],還有不少研究談及通用的NLG生成框架,將來可以很好地普適應用於各個任務上。由於預訓練模型的快速發展,在IJCAI 2020中,出現了將預訓練模型和NLG結合進行的研究ERNIE-GEN[38],也有研究結構化的數據生成文本[39]和利用NLG生成預料Matric平衡語料[40],因此,在NLP中,自然語言生成已經具有全方位的研究,這也體現了在NLP領域中,IJCAI會議的受歡迎程度。

3.多模態

多模態(Multi-modality),尤其是將文本和其它的語音、視頻、圖像的模態相結合,一直以來都是研究的熱點話題,也是IJCAI 2020中非常重要的一個研究部分,今年一共有7篇和Multi-modality相關的研究。

視覺問答(Visual Question Answering,VQA)作為研究熱點之一,在IJCAI 2020中有4篇論文,分別從知識推理[41]、自監督[42]和網絡設計[43]等角度去研究如何通過可視化信息增強QA效果。有研究是通過視頻語義推理以達到更好的檢索效果[44],還有關於視覺-語音的導航(Navigation)[45],研究通過模型對語言和圖像同時進行理解,把語言當中描述的位置以及關鍵點定位到真實場景圖像當中,然後執行相對應的動作,以避免環境造成的bias問題,增加導航魯棒性。由於BERT的快速發展,IJCAI2020當中,有很多研究和視覺模態結合來做預訓練模型,在各項跨模態的任務當中取得了很好的效果。

來源: 北京智源人工智慧研究院微信公眾號

相關焦點

  • 自然語言處理的應用前景
    自然語言處理(NLP)的定義 自然語言處理(NLP)是人工智慧技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,並且在商業中的應用正在迅速增長。 雖然自然語言處理(NLP)這一術語最初指的是人工智慧系統的閱讀能力,但它後來成為所有計算語言學的一種通俗說法。
  • 自然語言處理暢談之機器翻譯技術發展歷程
    也有人稱機器翻譯是自然語言處理領域的皇冠明珠,只有解決了語言分析的所有難題,才能真正攻破機器翻譯這座堡壘。近十幾年來,機器翻譯研究及產業化在各國政府和產業界的大力支持下,取得了快速進展我國政府把包括機器翻譯技術在內的自然語言理解研究列入國家中長期科技發展規劃綱要中。美國政府在2009年把自動翻譯列為最具影響力的未來十大技術之一。
  • IBM在自然語言處理方面的創新幫助企業更好地理解業務語言
    對於聊天機器人等大部分人工智慧而言,這的確是個問題,當遇到複雜的語法時,它們會出錯,因為它們只關注具體的單詞,而不會聯繫更廣泛的上下文語境。了解Watson Assistant新的增強功能,看看我們自然語言理解新模型是怎樣脫穎而出的。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。(下文皆簡稱為「NLP」),它的工作原理是這樣的:接收自然語言,這種語言是通過人類的自然使用演變而來的,我們每天都用它來交流轉譯自然語言,通常是通過基於概率的算法分析自然語言並輸出結果
  • 翻譯機器人可"領會"使用意圖 河南首個自然語言處理實驗室發布新成果
    還記得歷史上首個獲得公民身份的人工智慧機器人Sophia麼?驚人的口才和語言自主學習能力讓全世界所折服,儼然成為人工智慧領域中的網紅。當然,伴隨著Sophia的走紅,自然語言處理這一人工智慧領域中的分支課題也逐漸走進人們的視野,成為近年來人工智慧領域中最火熱的研究課題。
  • 自然語言處理之詞性標註
    如在漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。 從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    機器之心發布機器之心編輯部自然語言處理(Natural Language Processing)是人工智慧的核心問題之一,旨在讓計算機理解語言,實現人與計算機之間用自然語言進行通信。阿爾伯塔大學(University of Alberta)劉邦博士在他的畢業論文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,對基於圖結構(graph-structured representations)的自然語言處理和文本挖掘進行了深入研究。
  • 從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進
    詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
  • 多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進
    動詞是句子的核心因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。從上面的例子可以看出,目前主流的自然語言處理系統對動詞的分析存在的主要問題之一就是:對一些特殊動詞沒有區分開來,做特殊的處理。類似be動詞,還有do、have等動詞在英語中實在是太特殊了,很多時態、語氣、疑問、強調等語法現象都與這些動詞緊密相關,因此只有處理好了這些動詞,才有助於詞性識別後進一步的處理。
  • 不可不知的2020高考命題十項基本原則
    不可不知的2020高考各科變化趨勢 新高考改革後,難靠刷題拿到高分了慢慢的成為過去式了,想在高考中脫穎而出還是需要真正意義上上的對知識點的理解。
  • 自然語言處理之文本相似度計算
    文 | 光大科技大數據部 盧格潤在金融科技的業務場景下,我們不可避免地應用到自然語言處理(NLP)的技術去解決問題,比如智能問答系統、資訊輿情的分析等……在自然語言處理中,很多實際應用具有共性問題,本文就以文本相似度的計算為例介紹自然語言處理解決問題的思路。
  • 送10本HanLP作者新書《自然語言處理入門》,人人都能看懂的NLP入門書
    《自然語言處理入門》就是這些更輕鬆的方式中的一種,何晗在這本書的前言中講到:在我的開源自然語言處理項目 HanLP 流行起來後,我接觸了大量 NLP 初學者,我看到不少人碰到了我當初苦苦思索的問題。許多用戶不理解「統計自然語言處理」的設計理念,對 「語料」「訓練」「模型」等概念十分陌生。同時,如果你缺乏自然語言處理基礎的話,也無法掌握 HanLP 中的高級功能。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    在第四屆機器翻譯大會(WMT19)比賽中,Facebook 採用了一種新型的半監督訓練方法,並在多種語言翻譯任務中獲得了第一名。Facebook 還引入了一種新的自我監督的預訓練方法——RoBERTa。它在一些語言理解任務上超過了所有現有的 NLU 系統。在某些情況下,這些系統甚至優於人類基線,包括英德翻譯和五個 NLU 基準。
  • 不可不知的9個芭蕾小知識
    所以,今天,知美君就為大家整理出了9個關於芭蕾藝術不可不知的乾貨知識,希望對大家欣賞、學習芭蕾藝術有所幫助,趕快一起來看下吧。這是首個使用職業芭蕾女伶的舞團,在此之前,女性角色由年輕的男人扮演。近一個世紀後,導演讓-喬治·諾維爾 (Jean-Georges Noverre,1727—1810年)大膽構思, 替換掉笨拙的撐裙舞服,丟棄面具,使舞蹈看起來更加自然。
  • 信息工程學院承辦第九屆CCF自然語言處理與中文計算國際會議
    2020年10月16-17日,第九屆CCF自然語言處理與中文計算國際會議(The Ninth CCF Conference會議開幕式由中國計算機學會自然語言處理專委會秘書長萬小軍教授主持,鄭州大學黨委副書記、副校長王宗敏到會致辭,王校長代表鄭州大學向蒞臨會議的各位領導、專家表示誠摯歡迎。王校長介紹了鄭州大學的辦學規模、學科特點,重點對鄭州大學信息學科的建設情況和取得的成績以及自然語言處理實驗室進行了介紹。
  • AI雲服務市場成績單出爐:百度智能雲自然語言處理第一
    7月14日,全球權威諮詢機構IDC最新發布的《中國人工智慧雲服務市場研究報告(2019)》顯示,百度智能雲不僅在整體調用量和市場份額兩個方面均名列第一,在AI產品數量上也是最多的,領先阿里雲、騰訊雲、AWS和華為雲等國內外雲廠商,可謂是風光無限。那麼,IDC的報告都考了哪些"科目"呢?
  • 除了自然語言處理,你還可以用Word2Vec做什麼?
    儘管詞嵌入(Word2Vec)技術目前主要用在自然語言處理的應用中,例如機器翻譯;但本文指出,該技術還可以用於分類特徵處理,把文本數據轉換成便於機器學習算法直接使用的實值向量,從而提供了一種看待詞嵌入(Word2Vec)應用的新視角。當使用機器學習方法來解決問題的時候,擁有合適的數據是非常關鍵的。不幸的是,通常情況下的原始數據是「不乾淨」的,並且是非結構化的。
  • 2020遴選面試熱點:一問三不知,如何能打勝仗
    遴選面試技熱點:2020遴選面試熱點:一問三不知,如何能打勝仗。更多中央公選遴選考試複習資料下載,請點擊北京公選遴選考試網。 【熱點梗概】在湖北,目前黃岡、孝感等地疫情防控的形勢比較嚴峻,特別是黃岡市。
  • 找人辦事, 不可不知的30個方法
    好的表達:你能否儘快幫我一個忙,把這件事情處理好?對照表達:儘快把這件事辦一下。2.緩言法:藉助於輔助語來減緩話語的壓力,避免唐突,充分維護對方的面子。好的表達:小王,不知您可不可以把這封信帶給他?對照表達:小王,把這封信帶給他!3.悲觀法:通過流露不太相信能成功的想法把請求表達出來,給對方和自己以 退路。好的表達:你可能不大願意,不過我還是想麻煩你一趟。
  • 易方達楊嘉文:深入研究 優選非熱點中的好公司
    楊嘉文用三個方法去實現,首先是堅持逆向投資。楊嘉文表示:「一隻股票在10元時,你沒有關注和買入,當它漲到15、20元時,你為什麼認為能衝進去買成重倉呢?除非有兩點,一是通過研究,看到未來巨大的空間,二能理解它過去為什麼漲了一倍。逆向投資,不盲目追高,客觀看待每個股票的波動。」   其次是持股行業集中度較低。