被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了

2021-01-10 量子位

近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。

國際計算語言學協會(ACL,The Association for Computational Linguistics)是自然語言處理領域影響力最大、最具活力的國際學術組織之一,百度CTO王海峰曾任2013年 ACL 主席(President),是ACL歷史上首位華人主席。

除了在國際AI學界的影響力外,ACL無論是審稿規範還是審稿質量,都是當今AI領域國際頂級會議中公認的翹楚。研究論文能夠被其錄用,不僅意味著研究成果得到了國際學術界的認可,也證明了研究本身在在實驗嚴謹性、思路創新性等方面的實力。而此次ACL 2020的審稿周期,從去年12月一直持續到今年4月,相比往年幾乎增加了一倍。雖然大會官方尚未公布今年整體論文錄用率,但參照往年的評審過程和錄用率,論文被其錄取的難度依舊不會低。

百度的自然語言處理技術,在發展及應用上始終保持領先,一直被視為自然語言處理研究界的「第一梯隊」。今年除了11篇論文被錄用外,大會期間百度還將聯合Google、Facebook、UPenn、清華大學等海內外頂尖企業及高校,共同舉辦首屆同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation)。由於近期疫情影響,原定於今年7月5日至10日在美國西雅圖舉行的大會已改為線上舉辦,而上述同聲傳譯研討會也將改為在線上與專家學者們探討。

本屆大會百度被收錄的11篇論文,覆蓋了對話與交互系統、情感分析/預訓練表示學習、NLP 文本生成與摘要、機器翻譯/同聲翻譯、知識推理、AI輔助臨床診斷等諸多自然語言處理界的前沿研究方向,提出了包括情感知識增強的語言模型預訓練方法、基於圖表示的多文檔生成式摘要方法GraphSum等諸多新算法、新模型、新方法,不僅極大提升了相關領域的研究水平,也將推動人機互動、機器翻譯、智慧醫療等場景的技術落地應用。

以下為ACL 2020百度被收錄的11篇論文概覽。

一、對話與交互系統

1、Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

我們提出用圖的形式捕捉對話轉移規律作為先驗信息,用於輔助開放域多輪對話策略學習。基於圖,我們設計策略學習模型指導更加連貫和可控的多輪對話生成。首先,我們從對話語料庫中構造一個對話圖(CG),其中頂點表示「what to say」和「how to say」,邊表示對話當前句與其回複句之間的自然轉換。然後,我們提出了一個基於CG的策略學習框架,該框架通過圖形遍歷進行對話流規劃,學習在每輪對話時從CG中識別出哪個頂點和如何從該頂點來指導回復生成。我們可以有效地利用CG來促進對話策略學習,具體而言:(1)可以基於它設計更有效的長期獎勵;(2)它提供高質量的候選操作;(3)它讓我們對策略有更多的控制。我們在兩個基準語料庫上進行了實驗,結果證明了本文所提框架的有效性。

2、PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

研發開放領域(Open-Domain)的對話機器人,使得它能用自然語言與人自由地交流,一直是自然語言處理領域的終極目標之一。對話系統的挑戰非常多,其中有兩點非常重要,一是大規模開放域多輪對話數據匱乏;二是對話中涉及常識、領域知識和上下文,一個對話的上文(Context),往往可以對應多個不同回復(Response)的方向。PLATO首次提出將離散的隱變量結合Transformer結構,應用到通用對話領域。通過引入離散隱變量,可以對上文與回復之間的「一對多」關係進行有效建模。同時,通過利用大規模的與人人對話類似的語料,包括Reddit和Twitter,進行了生成模型的預訓練,後續在有限的人人對話語料上進行微調,即可以取得高質量的生成效果。PLATO可以靈活支持多種對話,包括閒聊、知識聊天、對話問答等等。而文章最終公布的在三個公開對話數據集上的評測,PLATO都取得了新的最優效果。

儘管越來越多的工作證明了隨著預訓練和大規模語料的引入,自然語言處理領域開啟了預訓練然後微調的範式。在對話模型上,大規模預訓練還處於初級階段,需要繼續深入探索。PLATO提出的隱變量空間預訓練模型,可能成為端到端對話系統邁上一個新臺階的關鍵點之一。

3、Towards Conversational Recommendation over Multi-Type Dialogs

真實人機對話,涉及多類型對話(閒聊、任務型對話、問答等),如何自然的融合多類型對話是一個重要的挑戰。為應對這個挑戰,我們提出一個新的任務——多類型對話中的對話式推薦,期望Bot能夠主動且自然地將對話從非推薦對話(比如『問答』)引導到推薦對話,然後基於收集到的用戶興趣及用戶實時反饋通過多次交互完成最終的推薦目標。為便於研究這個任務,我們標註了一個包含多種對話類型、多領域和豐富對話邏輯(考慮用戶實時反饋)的人-人對話式推薦數據集DuRec(1萬個對話和16.4萬個utterance)。針對每個配對:推薦尋求者(user)和推薦者(bot),存在多個序列對話,在每個對話中,推薦者使用豐富的交互行為主動引導一個多類型對話不斷接近推薦目標。這個數據集允許我們系統地考察整個問題的不同部分,例如,如何自然地引導對話,如何與用戶交互以便於推薦。最後,我們使用一個具有多對話目標驅動策略機制的對話生成框架在DuRec上建立基線結果,表明了該數據集的可用性,並為將來的研究設定了基線。

二、情感分析/預訓練表示學習

4、SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis

近年來,隨著預訓練語言模型的快速發展,情感分析等多項自然語言理解任務都取得了顯著的效果提升。然而,在通用語言模型預訓練中,文本中的很多情感相關的知識和信息,例如情感詞、實體-評論搭配等,並沒有被模型充分的學習。基於此,百度提出了一種情感知識增強的語言模型預訓練方法,在通用預訓練的基礎上,設計了面向情感知識建模的Masking策略和情感多目標學習算法,融合了情感詞、極性、主體評論關係等多層情感知識,首次實現了情感任務統一的文本預訓練表示學習。該算法在情感分類、觀點抽取等情感分析任務中相對主流預訓練模型RoBERTa有顯著的提升,同時刷新了多個情感分析標準測試集的世界最好水平。

5、Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning

本文針對無標籤資源的目標語言,提出了一種無監督的跨語言情感分析模型。

三、NLP 文本生成與摘要

6、Leveraging Graph to Improve Abstractive Multi-Document Summarization

多文檔摘要(Multi-Document Summarization)技術自動為主題相關的文檔集生成簡潔、連貫的摘要文本,具有廣闊的應用場景,例如熱點話題綜述、搜索結果摘要、聚合寫作等。生成式多文檔摘要方法的難點之一是如何有效建模文檔內及文檔間的語義關係,從而更好地理解輸入的多文檔。為此,本論文提出基於圖表示的多文檔生成式摘要方法GraphSum,在神經網絡模型中融合多文檔語義關係圖例如語義相似圖、篇章結構圖等,建模多篇章輸入及摘要內容組織過程,從而顯著提升多文檔摘要效果。GraphSum 基於端到端編解碼框架,其中圖編碼器利用語義關係圖對文檔集進行編碼表示,圖解碼器進一步利用圖結構組織摘要內容並解碼生成連貫的摘要文本。GraphSum 還可以非常容易地與各種通用預訓練模型相結合,從而進一步提升摘要效果。在大規模多文檔摘要數據集WikiSum 和MultiNews 上的實驗表明,GraphSum 模型相對於已有的生成式摘要方法具有較大的優越性,在自動評價和人工評價兩種方式下的結果均有顯著提升。

7、Exploring Contextual Word-level Style Relevance for Unsupervised Style Transfer

無監督風格轉換是指在無平行語料的情況下,把輸入的句子改成目標風格,同時儘可能保持其原義。本文提出了一種全新的序列到序列的生成模型,可以動態地根據生成詞的風格相關性進行風格轉換。本文有兩個主要的創新點,一是用層級相關性傳播算法計算風格分類器中每個輸入詞的風格相關性信息,並以此作為指導信號來訓練生成器,讓生成器在生成的同時可以預測下一個詞的風格相關性。二是設計了以詞級別風格相關性和語義信息作為輸入的風格轉換解碼器,並通過多個損失項進行finetune訓練,從而實現風格轉換的功能。實驗表明,本文提出的方法在情感風格轉換和口語化風格轉換的任務上都達到了領先效果。

四、機器翻譯&同聲翻譯

8、Opportunistic Decoding with Timely Correction for Simultaneous Translation

同聲傳譯有許多重要的應用場景,近年來受到學術界和業界的廣泛關注。然而,大多數現有的框架在翻譯質量和延遲之間難以平衡,即解碼策略通常要麼過於激進,要麼過於保守。在本論文中,百度首次提出了一種具有及時糾錯能力的解碼技術,它總是在每一步產生一定數量的額外單詞,以保持觀眾對最新信息的跟蹤,同時,它也在觀察更多的上下文時,對前一個過度生成的單詞提供及時的糾錯,以確保高翻譯質量。本文還首次提出了對這種糾錯場景下的延遲指標。實驗表明,我們的技術提高了延遲和質量:延遲減少了2.4,BLEU增加了3.1,中英翻譯和中英翻譯的修改率低於8%。本系統可用於任何語音到文本的同傳系統中。

9、Simultaneous Translation Policies: from Fixed to Adaptive

同聲翻譯是機器翻譯中的一個重要問題,它不僅要求高質量的翻譯結果,而且要求翻譯的過程有較低的時延。同聲翻譯的過程可以認為是一個選擇「讀」或「寫」的決策過程,而所採用的策略則決定了同聲翻譯的質量與時延。本文提出一種簡單的啟發式算法,根據翻譯模型輸出的概率分布,可以將幾種精簡的固定「讀寫」策略組合成一種靈活的策略。本文進一步將該算法與集成方法相結合,既提高了翻譯質量,又降低了翻譯過程的時延。這種簡單的算法不需要訓練策略模型,使得其更易於在產品中使用。

五、知識推理

10、Learning Interpretable Relationships between Entities, Relations and Concepts via Bayesian Structure Learning on Open Domain Facts

通過貝葉斯結構學習建立了開放領域的關係與概念(Concept)之間的關聯,使得實體為何屬於某個概念的原因得到了很好的解釋。

六、AI輔助臨床診斷

11、Towards Interpretable Clinical Diagnosis with Bayesian Network Ensembles Stacked on Entity-Aware CNNs

基於電子病歷(EMR)的智能化診斷算法是AI醫療研究領域最重要、最活躍、應用最廣泛的問題之一。傳統的診斷算法或者直接使用端到端分類模型,丟失了可解釋性,或者僅基於知識關係和規則進行推理,可遷移、可擴展性低。本研究提出一種新的診斷算法框架,該框架針對EMR具有無結構化文本和結構化信息並存的特點,結合醫療NLU,以深度學習模型實現EMR的向量化表示、診斷預分類和概率計算。結合醫療知識圖譜增強的多種貝葉斯網絡的組合模型,實現具有可解釋性的診斷推理。該框架能同時兼顧高診斷準確率和強可解釋性的特點,並可應用於面向基層醫師的輔助臨床診斷產品中。

— 完 —

相關焦點

  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • ACL 2019 27 篇論文實現代碼(持續更新中)
    ACL 2019 共接收了 765 篇論文,目前官網已經全部公布了,官方連結:http://www.acl2019.org/EN/program/papers.xhtml但是官網沒有公布連結,部分論文也沒有展示出來。所以AI研習社給大家整理了343篇論文,供大家學習!
  • 「直播預告」ACL 2020百度論文作者與你暢聊頂會論文
    4月初,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果,百度共有11篇論文入選,展現出了百度在自然語言處理領域出色的技術實力。5月21日、22日,我們將邀請百度技術委員會主席、百度自然語言處理首席科學家吳華博士攜6位 NLP 研發工程師為大家帶來2場「聽大咖講論文」直播活動,對百度入選 ACL 2020的6篇論文進行詳細解讀。
  • 來自一位參與了acl2019討論的學者的論點
    近期,nlp領域發生了一些重大變化,其中包括:來自瑞典、丹麥和波蘭的頂級學者開始在研究頂刊acl上發表基於最新cnn的corpus和machinereadingcomprehension,以及其他一些有趣的project。
  • 新增21篇SCI論文已上線見刊,發表周期僅40天
    見刊通知經核實,由愛思德學術推薦發表的21篇醫學類論文已在某SCI期刊官網上線見刊,論文編號見文末,本刊及醫學相關仍有版面可安排發表。>期刊二期刊分區:JCR2區,中科院醫學信息2區出版發行:加拿大出版社,季刊,年發文100篇以下影響因子:IF=3.1+(上升趨勢)發表周期:3-4個月左右(2020版面)百度搜索
  • 7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述
    /anthology/2020.acl-main.442.pdf摘要:儘管衡量留出(held-out)準確率是評估模型泛化性能的主要方法,但它通常會高估 NLP 模型的性能,而其他評估模型的替代性方法要麼專注於單項任務,要麼只看特定行為。
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    1)無監督的機器翻譯翻譯(Unsupervised MT)ICLR 2018 收錄的兩篇關於無監督機器翻譯翻譯的論文(https://arxiv.org/abs/1710.11041)中,無監督機器翻譯的整個過程的表現好得讓人感到驚訝,但結果卻不如監督系統。
  • 一窺ACL 2018 最佳論文
    ACL 2017 會前首先公布了 22 篇 outstanding 論文(可以看作最佳論文的預選論文),其中長論文 15 篇、短論文 7 篇;接著正會開始後這 22 篇論文分在四個不同的論文報告 session 中演講,然後在最後一天的頒獎典禮上公布了最終的最佳論文獎得主。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    | 百度編 | 賈偉 近日,計算機視覺領域「奧斯卡」CVPR 2020官方公布論文收錄結果,伴隨投稿數量激增,接收率開始經歷了一個持續下降的過程。今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    (http://www.ijrat.org/downloads/icatest2015/ICATEST-2015127.pdf)相關論文2: 這篇論文非常出色,討論了運用深度學習對變化豐富的語種做詞形還原時會遇到的問題。
  • 中國AI的底牌與前路:王海峰團隊十篇論文入選ACL的價值釋讀
    中國AI的底牌與前路:王海峰團隊十篇論文入選ACL的價值釋讀 今年的自然語言處理領域頂級會議 ACL已經放榜,每每AI頂會放榜之時,也是科技企業們集體關注自身學術研究進度的時候。近年來隨著中國科技企業對AI技術的研究日益深入和產學結合的趨勢發展,各個AI頂會上科技企業的出沒也愈發頻繁。
  • 從想法到實幹,2018年13項NLP絕美新研究
    Ruder 筆記中提到了以下這篇論文:論文:Phrase-Based & Neural Unsupervised Machine Translation論文連結:https://arxiv.org/abs/1804.07755這篇論文很好地提煉出了無監督 MT 的三個關鍵點:優良的參數初始化、語言建模和通過回譯建模反向任務。
  • ACL 2020投稿破 3 千,到底有多少人在做 NLP 研究?
    雷鋒網AI科技評論按:在昨天ACL 2020公布了最新的投稿數量:3429篇。這也是所有ACL旗下會議首次接收論文數量破 3000篇。這引起了筆者的好奇,歷屆 ACL 都接收了多少文章呢?當前做NLP的研究人員數量在什麼量級呢?目前最熱的研究領域是什麼呢?
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。除此之外,「為了鼓勵再現和增加透明」,他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 聚焦人工智慧領域發展,微信9篇論文入選ACL和IJCAI兩大頂會
    近日,自然語言處理(NLP)領域的頂級會議ACL 2020公布了論文評審結果,微信7篇文章被收錄;而人工智慧領域的頂級會議IJCAI 2020前不久公布的收錄結果裡,微信也有2篇文章被收錄。微信在國際頂級會議上頻繁的出色表現,也代表了其在人工智慧領域的強大實力。
  • 專訪ACL2020最佳論文二作:全新NLP模型評測方法論,思路也適用於CV
    小編看到論文題目的第一眼就覺得哪些有些不對,於是趕緊通讀了一下文章,嗯~確實不太對,這貌似和之前我們熟悉的NLP「大力出奇蹟」的模型套路不太一樣啊?那麼這篇論文到底講了什麼呢,又何以摘得桂冠呢?論文解讀以外,我們進一步對論文的第二作者吳彤霜進行了專訪,以更深入地了解最佳論文團隊背後的工作。
  • ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了
    新智元報導 來源:acl2018.org編輯:聞菲、小芹【新智元導讀】ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2018將於7月15日至20日在澳大利亞墨爾本舉行。昨天,ACL官網公布了本屆大會的最佳論文,包括3篇最佳長論文和2篇最佳短論文,新智元帶來介紹。