AAAI 2020舉辦,百度NLP論文速遞

2021-01-07 百度NLP

立春剛過,人工智慧行業迎來2020年的第一個頂級學術大會。2月7日,AAAI 2020在美國紐約拉開了帷幕。本屆大會百度共有28篇論文被收錄,較AAAI 2019的15篇入選成績提升近一倍,本次入選論文涉及機器學習、自然語言處理、計算機視覺等多個領域。

原計劃有多位百度重量級科學家、研究者將受邀赴會發表演講。受疫情影響,眾多中國學者缺席了本次大會,百度作為中國人工智慧行業「頭雁」,通過積極地遠程參與,向世界展示技術、學術能力,提振中國AI開年信心。

自1979年成立至今,AAAI已舉辦34屆,大會匯集了全球頂尖的人工智慧領域專家學者,可謂是人工智慧行業的科研風向標。

本屆會議共收到的有效論文投稿超過8800篇,其中7737篇論文進入評審環節,最終錄取數量為1591篇,錄取率為20.6%。

此次百度入選的28篇論文覆蓋機器學習、自然語言處理、計算機視覺等領域,完成了在數量上和研究方向的雙向突破,創新科研能力可見一斑。以下就入選的4篇自然語言處理領域的論文為大家詳細解讀:

NLP 預訓練領域入選論文

在NLP預訓練領域,百度入選論文《ERNIE 2.0: A Continual Pre-training Framework for Language Understanding》也被選做Oral進行展示。

ERNIE 2.0是持續學習的語義理解框架,該框架可以增量地學習海量數據中的知識,持續提升語義理解效果。在ERNIE 2.0中,知識可通過預訓練任務的形式加入到訓練框架,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。

基於該框架,ERNIE 2.0模型通過命名實體預測、句子排序結構重建、語義邏輯關係預測等預訓練任務,從大規模訓練數據中獲取到詞法、句法、語義等多個維度的知識,大幅提升了通用語義理解水平。

ERNIE 2.0同現有的預訓練模型在英文數據集合GLUE和9個中文任務上進行了實驗。在英文任務上,模型幾乎全面優於之前的SOTA模型BERT和XLNet,在7個GLUE任務上取得了最好的結果;中文任務上,ERNIE 2.0模型在9個中文NLP任務中全面優於BERT。

去年12月,基於ERNIE 2.0改進的模型在GLUE上首次突破90大關,超越人類基線3個點拿到全球第一。

機器閱讀理解領域入選論文

機器閱讀理解領域,百度入選論文《A Robust Adversarial Training Approach to Machine Reading Comprehension》,討論了機器閱讀理解模型面臨對抗攻擊時的效果魯棒性問題甚至安全問題。

通過人工方式發現、總結並生成用於訓練對抗樣本的方式會產生需要人工參與的缺點,且不可能通過規則的方式枚舉出所有可能的對抗樣本類型及其規則。針對此,論文提出一種模型驅動的方式,使用自動對抗的方法無需人工參與,能夠自動地發現未觀察過的對抗樣本類型並最終提升閱讀理解的效果魯棒性。

該方法可以簡單地劃分為三個步驟:

1、對每個訓練樣本我們利用對抗的方法生成一個幹擾向量輸入,使得它能夠誤導當前的閱讀理解模型;

2、採用貪心策略從幹擾向量的詞彙權重中採樣得到對應的離散化的幹擾文本;

3、使用幹擾文本構建用於訓練的對抗樣本,並重新訓練閱讀理解模型並重複上述步驟直至收斂。

實驗驗證,運用上論文中的對抗訓練方法後,在不同的對抗數據集上均有非常顯著的效果提升,並發現論文提出的模型驅動的方法確實能夠生成多樣性更加豐富的對抗樣本,從而補充人工規則的不足。

同時也發現使用該方法生成的對抗樣本 case 仍然較為雜亂,並不具備很好的流利度甚至完全不是自然語言,因此當前對抗生成的方法仍然有較大提升空間。

機器翻譯領域入選論文

機器同聲傳譯是近年來人工智慧領域前沿研究方向,百度入選論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》,提出了一種基於交互式解碼的同步語音識別與語音翻譯模型,提升了端到端機器同傳模型性能。

端到端的語音翻譯模型通過直接建立源語言語音到目標語言文本的映射關係,一步實現跨模態跨語言的翻譯,理論上可以讓語音翻譯更準更快,極大地提升模型的性能。作者發現語音識別和語音翻譯兩個任務是相輔相成的,希望設計一種交互式的模型,讓語音識別與語音翻譯兩個任務可以動態交互學習,實現知識的共享和傳遞。

作者使用基於自注意力機制的Transformer模型作為主框架,語音識別任務和語音翻譯解碼任務共享同一個編碼器,在解碼器中加入一個交互注意力機制層,實現兩個任務的知識交互和傳遞。

通過實驗結果可以看出,在大多數情況下,基於交互式解碼的同步語言識別與語音翻譯模型的性能表現不管在語音識別任務還是語音翻譯任務上都要顯著高於預訓練的端到端模型、多任務模型和兩階段模型。

對話生成領域入選論文

對話生成領域,百度入選論文《Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation》,提出了一個基於知識圖譜及層次化強化學習的開放域對話模型(KnowHRL)。

經典的基於神經網絡的開放域對話生成沒有有效的機制來管理聊天主題,所以容易生成不太連貫的多輪對話。在人-人對話策略的啟發下,作者首次提出將多輪開放域會話生成任務分為兩個子任務:顯式目標(話題選擇)序列規劃和目標細化(深入話題聊天),提出了一個基於知識圖譜及層次化強化學習的開放域對話模型(KnowHRL)。

具體來說,對於第一個子任務,上層策略學習遍歷知識圖譜(KG),以規劃顯式目標序列,從而在對話自洽性與用戶興趣感知程度之間取得良好平衡。對於第二個子任務,中間層策略和下層策略協同工作,藉助目標完成機制,圍繞給定話題的同用戶進行深入聊天。

顯式目標序列規劃功能使開放域聊天機器人具備主動引導對話能力,具有許多實際應用場景,如推薦學習資源。實驗表明,該模型在用戶興趣感知程度、對話自洽性和知識準確性方面優於最新的基線。

入選論文數量的增加可以看出百度 AI 的學術能力已經獲得國際認可,而在技術研發、產業落地等方面,百度 AI 更是拿出實打實的「成績單」。

在過去一年中:

百度深度學習平臺——百度飛槳,累計服務150多萬開發者,發布模型達到16.9萬個,成為中國首個也是目前國內唯一開源開放、功能完備的產業級深度學習平臺。

百度大腦已經升級成「軟硬一體AI大生產平臺」,對外開放240項核心AI能力,服務超過150萬開發者,日均調用量突破1萬億次,語音、人臉、NLP、OCR 調用量中國第一。

百度 Apollo 已跑入23個城市,測試裡程已經突破300萬公裡,智能駕駛專利1237項,位列全國第一。

截至2019年6月,搭載小度助手的智能設備激活數量已突破4億臺,小度助手語音交互超過36億次,前三季度,小度有屏音箱出貨量穩居全球第一。

百度作為AAAI 2020的金牌贊助商,在全面展示論文研究成果的同時,百度展臺現場也十分火爆,現場交流者眾多,宣傳材料已被「搶光」。

作為中國AI的領軍者,百度AI既是中國AI的底氣,也是中國AI的信心。2020年伊始,百度 AI憑藉強有力的技術、科研實力,向全世界注入中國AI強心劑。未來,百度將繼續衝在前面,「產研」結合推動技術創新,帶領中國 AI 起舞於國際舞臺。

登錄百度NLP官網可查看百度NLP更多學術論文,下期我們將為大家詳細解讀AAAI 2020百度入選的4篇NLP領域論文,敬請期待!

百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智能,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球用戶,讓複雜的世界更簡單。

相關焦點

  • AAAI 2020 開幕:百度28篇論文入選 涉及NLP、機器學習、視覺等領域
    立春剛過,人工智慧行業迎來2020年的第一個頂級學術大會,2月7日,AAAI 2020在美國紐約拉開了帷幕。本屆大會百度共有28篇論文被收錄,較AAAI 2019的15篇入選成績提升近一倍,本次入選論文涉及機器學習、自然語言處理、計算機視覺等多個領域,原計劃有多位百度重量級科學家、研究者將受邀赴會發表演講。
  • 五分之一參會者將缺席AAAI 2020,主辦方被迫「在線開會」
    在疫情肆虐的時候,美國禁止中國人入境,受此影響,本來今天要在紐約舉辦的AAAI 2020會議,不少中國作者無法出席。微眾銀行首席人工智慧官、香港科技大學楊強教授就是其中一人,他也是下一屆AAAI大會(AAAI 2021)的主席。
  • 百度領銜!NLP界「奧斯卡」ACL 2020將舉辦首屆同傳Workshop
    ACL 2020中召開。一直以來,百度積極參與各屆ACL頂會,引發行業矚目,ACL 2019中百度更是有十篇論文被收錄,涵蓋諸多熱點和前沿研究方向。百度CTO王海峰博士則是ACL五十多年歷史上首位華人主席,ACL Fellow,並於2018年出任ACL亞太分會(AACL)創始主席。
  • 四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究
    據機器之心了解,在近期召開的 AAAI 2020 中,微信數據質量團隊共計入選 4 篇研究論文,包含文本分類、強化學習、遷移學習等領域,包含文本分類、強化學習、遷移學習等領域,其核心算法已經用在微信看一看,搜一搜等應用裡面。本文對此四篇論文的核心內容進行了介紹。1.
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI2017最佳論文出爐!附PPTAAAI2017
    雷鋒網-AI科技評論前線報導:美國太平洋時間2月8日早上8:30,在舊金山的AAAI 2017大會進行了最佳論文的頒獎典禮。最佳論文頒發給了史丹福大學的Russell Steward以及其導師Stefano Drmon撰寫的論文《Label-Free Supervision of Neural Networks with Physics and Domain Knowledge》。該文章從已知的關係(如物理定律)入手,通過輸出必須滿足物理定律的約束來訓練學習。
  • AAAI2021會議時間紀要
    最近正好臨近aaai2021的註冊開放日,先放上官方地址:https://aaai.org/Conferences/AAAI-21/aaai21call/ ,簡單記一下幾個當前重要時間點和注意事項:會議DATE
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI 2017最佳論文出爐!(附PPT)| AAAI 2017
    雷鋒網-AI科技評論前線報導:美國太平洋時間2月8日早上8:30,在舊金山的AAAI 2017大會進行了最佳論文的頒獎典禮。這一方法還可以顯著減少對標記的訓練數據的需要,並同時帶來了將先驗知識編碼為適當的損失函數的新挑戰。(論文全文參見網址:http://www.aaai.org/Conferences/AAAI/2017/PreliminaryPapers/12-Stewart-14967.pdf。
  • AAAI 2019 錄用列表論文公布,清華58篇
    每年的 AAAI 都會吸引來自全球各地的學者參會,目前的論文摘要提交達到7745篇,創下新紀錄,錄取率僅為16.2%。大會正即將開始,所有錄用論文列表已經公布,來一起看看有沒有你感興趣的論文。https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2018/11/AAAI-19_Accepted_Papers.pdf【論文列表下載】 請關注專知公眾號(點擊上方藍色專知
  • AAAI 2019 四個傑出論文獎論文揭曉
    近日,AAAI 組委會在官網公布了幾個論文獎獎項的獲獎情況。雷鋒網 AI 科技評論簡介如下。AAAI 2019 傑出論文獎How to Combine Tree-Search Methods in Reinforcement Learning 如何把樹搜索方法結合進強化學習中 論文地址:https://arxiv.org/abs/1809.01843 論文摘要
  • 百度、騰訊、華為……哪些國內公司的論文被AAAI收錄?|AAAI2017
    而除此之外,AAAI 2017 的中國贊助商除了一直以來非常「堅定」的百度外,今年也出現了不少熟悉的新面孔,騰訊、小 i 機器人、字節跳動(今日頭條)都在今年的贊助商之列。國內公司對人工智慧國際學術會議的重視與支持,同樣讓我們看到了「中國創造」的科技力量。AAAI 2017 既然作為一個人工智慧的學術會議,收錄的論文也同樣值得我們關注。
  • ICML 2020百度AI之行:入選7篇論文 舉辦3場EXPO
    ICML 2020會議論文投稿量再創新高,接收率下降至21.8%左右。百度AI在激烈的投稿競爭中,成功入選論文7篇,涵蓋深度學習、遷移學習、自然語言處理、數據隱私以及語音等眾多熱門子領域;同時,百度AI積極申辦ICML EXPO,獲得3場舉辦資格,這是主辦方對百度AI技術實力的肯定,也展示出百度AI在全球人工智慧產業的行業領先地位。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    本論文展示了一個全新的能實現開放詞彙神經機器翻譯(open vocabulary NMT)的詞-字符解決方法。我們建立了一個混合的系統,能夠實現大部分的詞級(word level)翻譯,並可查閱罕見詞的字母組成。我們字符級的循環神經網絡能計算源詞的表徵,並能在需要時恢復未知的目標詞。
  • AAAI、IJCAI和ACL錄用三名清華本科生成果,華人NLP最傑出HowNet成功融入DL模型
    下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2017_sememe.pdf 源碼:https://github.com/thunlp/SE-WRL我們考慮將詞義的義原知識融入詞彙表示學習模型中。在該工作中,我們將HowNet的義原標註信息具象化為如下圖所示的word-sense-sememe結構。
  • 【Github分享】語音交互、NLP相關資源分享
    導語:本文是關於語音交互和NLP相關的代碼的論文、語料庫、代碼、項目、教學等資源連結。讀完本文需要10分鐘。以下為目錄,如果喜歡,可以複製連結進行跳轉:https://github.com/msgi/nlp-journey/blob/master/docs/tools.mdhttps://github.com/msgi/nlp-journey/blob/master/docs/alg.mdhttps://github.com/msgi/nlp-journey
  • 11篇論文、首屆同傳研討會、技術分享,百度AI閃耀ACL2020
    這次會議,百度共有11篇論文被錄用,覆蓋自然語言處理眾多前沿研究方向;百度聯合谷歌、Facebook、清華大學等全球頂尖機構,共同舉辦首屆同聲傳譯研討會;在線上展臺主題技術TALK環節,百度還就開放域人機對話技術、ERNIE核心技術等業內關注的話題展開分享,展現了中國企業在自然語言處理及人工智慧領域的技術創新與落地實踐能力。
  • AAAI 2020分享|南京大學:一般約束下子集選擇問題的高效演化算法
    無法出門,不如在家讀論文。最新一期的機器之心 AAAI 2020 線上分享,我們邀請到了南京大學人工智慧學院研究助理卞超為我們做分享。作為今年首個召開的人工智慧頂會,AAAI 2020 也受到了極大影響。國內眾多論文作者無法正常參與此頂會,進行學術交流。為向讀者們分享更多的優質內容,讓大家在無法出門的日子裡高效學習,機器之心將繼續組織 AAAI 2020 線上論文分享。
  • 百度杯NLP競賽:實體搜索成為自然語言處理研究領域新課題
    3月初,百度、中國計算機學會(CCF)聯合啟動了「百度杯」CCF國際自然語言理解與智能分析技術競賽——NLP Challenge,此次競賽是雙方首次舉辦的NLP領域技術大賽,面向海內外NLP領域的研究人員。 競賽以「實體搜索」作為賽題,以期能在該領域中取得全新的進展,探索NLP技術的各種可能,結合百度各產品的應用,讓技術更好地連接人與服務。
  • ACL 2019盛大開幕 百度NLP技術實力亮相引行業熱潮
    本屆大會,王海峰博士和百度高級技術總監趙世奇博士作為執委會成員,參與討論決定ACL整體決策和重要發展方向。ACL於去年宣布成立了ACL亞太分會(AACL),王海峰博士為創始主席。首屆AACL大會將於2020年在中國蘇州舉行,百度技術委員會主席、百度自然語言處理首席科學家吳華將出任首屆AACL 程序委員會聯合主席。