EMNLP2018上FB、谷歌繼續並肩「刷榜」,瓜分最佳長論文和十分之一...

2021-01-10 雷鋒網


雷鋒網 AI 科技評論按,自然語言處理頂會 EMNLP 2018 已經於 10 月 31 日開始了 Tutorial,正會將從 11 月 2 日開始。2017 年中,詞嵌入(word-embedding)毫無疑問是最為火熱的方法,以至於有人開玩笑說 EMNLP 的名稱「自然語言處理實證方法(Empirical Methods in Natural Language Processing)」還不如解釋為「自然語言處理嵌入方法(Embedding Methods in Natural Language Processing)」。 

不過學術界顯然不會滿足於詞嵌入一種方法,2018 年發表的成果就多樣化地在更有難度的任務的嘗試、對已有方法的更深入的探討、對新方向的探索中展現了計算語言學的更多可能。這股新風氣在同為自然語言處理頂會的 ACL 2018 的參會見聞中也有詳細說明。

作為有專門的人工智慧學術性研究院、有大規模團隊和高額科研預算的企業,Facebook 和谷歌一如既往地在 EMNLP 2018 上收穫頗豐。Facebook 有 14 篇論文被 EMNLP 接受,谷歌則有多達 26 篇(有一篇是兩者合作完成)。雖然目前 EMNLP 還沒有正式宣布論文接受數目,但雷鋒網 AI 科技評論預計這個數目大概會在四百多篇。這樣一來,有接近 10% 的收錄論文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的兩篇最佳長論文也剛好一篇出自 Facebook,一篇出自谷歌

下面我們來詳細看看這些研究成果。(文末提供這 39 篇論文的打包下載)

谷歌成果

(也許與谷歌的研究人員人數眾多有關,)谷歌在這次 EMNLP 2018 中的參與程度非常高。不僅有多位谷歌研究員將會在 EMNLP 大會中發表演講,涉及主題包括語言身份識別、分割、語義解析、問答系統,還有許多人員參與到了會議各個級別的組織工作中。

借著論文被接受,谷歌也隆重推出了四個用於 NLP 任務的數據集。與現有的學術數據集在較理想的環境下進行評估不同,這四個新的數據集更關注的是實際部署的 NLP 系統會遇到的不那麼規範的用戶輸入,都包含了真實的、自然人類交流中會出現的文本。同時這四個數據集也可以兩類,一類是對目前已經過較多研究的核心 NLP 任務提出更高的挑戰,另一類則是在對語句重構/編輯並保持語義不變的條件下鼓勵探索新的研究方向。這些數據集的收集方式也非常有趣,讓人不得不感慨這個時代真是數據無處不在、無所不能。

數據集列表

Noun-Verb Ambiguity in POS Tagging Dataset,部分對話標註中的非動詞單詞歧義性數據集。出自論文《A Challenge Set and Methods for Noun-Verb Ambiguity》。這個數據集研究了非動詞單詞歧義性引起的部分對話標註中的錯誤。數據集中包含了 3 萬個經過標註的人類語言中自然出現的非平凡的非動詞單詞歧義的例子。不同的部分對話標註方法的準確率在這個數據集上分布在 57% 到 75% 之間。

Query Wellformedness Dataset,問題完備性數據集。出自論文《Identifying Well-formed Natural Language Questions》。這個數據集研究了搜尋引擎中通常由關鍵詞簡單串聯起來形成的用戶輸入與自然語言表述的完整句子構成的問答之間的關係。在實際應用中,區分關鍵詞組成的搜索詞組與自然語言問句也有很大的應用價值。這個數據集中包含了 2.5 萬個標註問句,並且帶有評分,評價這些問句與形式完備的自然語言問句之間的接近程度。

WikiSplit 數據集,分割與重新組織語句的語料。出自論文《Learning To Split and Rephrase From Wikipedia Edit History》。這個數據集是從維基百科的編輯記錄中抽取樣本,專門關注了從一個長句拆分成兩個獨立的短句,同時這兩個短句合起來表示的意思和原來的長句相同的樣本。這個數據集包含了一百萬個句子拆分樣本,詞彙量超過為六十萬詞。

WikiAtomicEdits 數據集,來自原子性的維基百科編輯記錄的多語言對照語料。出自論文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人們編輯維基百科時的語言運用方式可以用來理解語言自己的結構。在這項研究中,谷歌的研究人員們專門關注了兩種原子編輯操作:對一段連續的文本的一次性插入或者刪除操作。他們從編輯記錄中提取出了涵蓋 8 中語言的共四千三百萬次這樣的編輯操作,並表明了這些操作對於語言的蘊含和論述提供了有價值的信息。

論文列表

A Challenge Set and Methods for Noun-Verb Ambiguity

A Fast, Compact, Accurate Model for Language Identification of Codemixed Text

AirDialogue: An Environment for Goal-Oriented Dialogue Research

Content Explorer: Recommending Novel Entities for a Document Writer

Deep Relevance Ranking using Enhanced Document-Query Interactions

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Identifying Well-formed Natural Language Questions

Learning To Split and Rephrase From Wikipedia Edit History

Linguistically-Informed Self-Attention for Semantic Role Labeling

Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency

Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations

Revisiting Character-Based Neural Machine Translation with Capacity and Compression

Self-governing neural networks for on-device short text classification

Semi-Supervised Sequence Modeling with Cross-View Training

State-of-the-art Chinese Word Segmentation with Bi-LSTMs

Subgoal Discovery for Hierarchical Dialogue Policy Learning

SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation

The Importance of Generation Order in Language Modeling

Training Deeper Neural Machine Translation Models with Transparent Attention

Understanding Back-Translation at Scale

Unsupervised Natural Language Generation with Denoising Autoencoders

WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse

WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community

Facebook

與谷歌類似,Facebook 也在開發新的數據集上花了不少功夫。他們這次在 EMNLP 2018 上帶來的數據集是 XNLI,它可以用於自然語言處理中的跨語言處理方法。這個數據集在目前廣泛使用的 MultiNLI 多風格自然語言推理語料庫基礎上增加了 14 種新的語言,其中包括了兩種稀缺語料資源的語言斯瓦希裡語與烏爾都語。

論文列表

A Dataset for Telling the Stories of Social Media Videos

Auto-Encoding Dictionary Definitions into Consistent Word Embeddings

Do explanations make VQA models more predictable to a human?

Dynamic Meta-Embeddings for Improved Sentence Representations

Extending Neural Generative Conversational Model using External Knowledge Sources

How agents see things: On visual representations in an emergent language game

Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion

Neural Compositional Denotational Semantics for Question Answering

Non-Adversarial Unsupervised Word Translation

Phrase-Based & Neural Unsupervised Machine Translation

Semantic Parsing for Task Oriented Dialog using Hierarchical Representations

Training Millions of Personalized Dialogue Agents

Understanding Back-Translation at Scale

XNLI: Evaluating Cross-lingual Sentence Representations

論文打包下載請訪問 http://ai.yanxishe.com/page/resourceDetail/622。更多 EMNLP 2018 報導,請繼續關注雷鋒網(公眾號:雷鋒網) AI 科技評論。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監督機器翻譯
    無監督機器翻譯是目前的熱門研究課題之一,Facebook 的研究人員們通過巧妙的設計得到了高達 11 BLEU 的表現提升;而 EMNLP 官方推特今天宣布這篇論文是 EMNLP 2018 的兩篇最佳論文之一。論文作者們早些時候也撰寫了一篇通俗介紹文章發表在了 Facebook 博客上,介紹了他們的主要思路。
  • EMNLP 2017 最佳論文揭曉,「男人也愛逛商場」獲最佳長論文
    近幾年的 EMNLP 會議都吸引了來自學術界和企業界的近千人參加,論文投稿數目也有上千篇。今年 EMNLP 共接受論文323篇,其中216篇為長論文,107篇為短論文。EMNLP 2017 也於昨日公布了最佳論文獲獎論文名單,四篇論文分獲兩個最佳長論文獎、一個最佳短論文獎和一個最佳資源論文獎。
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    除此之外,比較遺憾的是,今年的最佳短論文暫未頒發。作為國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議。EMNLP每年舉辦一次,去年則與 IJCNLP 聯合在香港舉辦,今年由於疫情轉為線上舉辦。
  • ICML 2019 最佳論文公布:繼霸榜後,谷歌再添重磅獎項!
    據 ICML 2019 前不久公布的論文結果,今年大會共收到 3424 篇有效投稿論文,最終收錄的論文數量為 774 篇,接收率為 22.6%。而今天,萬眾矚目的 ICML 2019 最佳論文結果最新出爐,將會議推向了高潮。
  • EMNLP 2019 參會小結及最佳論文解讀
    在今年EMNLP 2019上被錄用一篇長文《Domain Adaptation for Person-Job Fit with Transferable Deep Global Match Network》。李思晴,中國人民大學2018級碩士研究生、研究方向自然語言處理。
  • 遠見研究調查|2018臺灣最佳大學排名-分榜排名
    首創分榜排名 傳統頂大排序洗牌 私校異軍突起《遠見雜誌》已連續兩年發表「臺灣最佳大學排行榜」,引發各界廣泛迴響。今年進入第三年度的2018年最新調查結果也已出爐。由臺大守住第一學府之名,清大攻上榜眼,將「臺成清交」慣有排序重新洗牌;臺師大則成功轉型,擺脫師培學系殞落魔咒,拔得文法商類頭籌;醫科類由長庚大學和北醫並列冠軍;臺科大奪下技職類榜首;靜宜、義守、東海大學進步最顯著。
  • AI性能基準測試從此有了「中國標準」,英偉達、谷歌可以試試這套...
    在秀算力這件事上,近幾年一個叫MLPerf的AI性能基準測試,經常躍入人們的視線。 為了拿這個標準證明實力,英偉達、谷歌等「算力」大廠的表現,可謂是賺足了眼球。 早在2018年12月,也就是MLPerf首次出爐之際,英偉達便基於自家Tesla V100,在包括圖像分類、物體分割、推薦系統等六項測試中均取得優秀成績,拿下全場最佳。
  • 「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(下篇)
    Patrick Lewis 是 UCL 的自然語言處理博士生,早前參加了 EMNLP 2018,並在個人博客寫下了他的參會見聞,雷鋒網 AI 科技評論對此進行了有刪節的編譯。本文為頂會見聞的下篇,上篇可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(上篇)》進行閱讀。
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    大數據文摘出品當地時間6月12日,ICML 2019於美國長灘市公布了本屆大會最佳論文結果。谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。
  • 谷歌,FB,亞馬遜,Twitter 四家已退出「數據黑洞」群
    ,谷歌、微軟、Facebook 和 Twitter 四大網際網路巨頭於今日聯合發布了「數據傳輸計劃」(Data Transfer Project),旨在讓不同平臺的數據可以無障礙傳輸。谷歌形容該項目為:用戶可以「直接將數據從一個服務遷移到另一個服務,無需下載和重新上傳。」
  • EMNLP 2020 錄取結果已出,聽說你中的是Findings?
    如果這種新的發表方式得到EMNLP社區的熱烈歡迎,並得到足夠的採納,官方預計Findings機制將在之後的會議上繼續運作。最後,EMNLP程序主席表示,他們希望研究人員能以在Findings中發表論文為榮。
  • EMNLP 2020 錄取結果已出,聽說你中的是Findings?
    3、還有一網友則從功利、影響力、學生/審稿人三個角度說道:1 、功利的講一講,paper肯定是被emnlp承認的,就像其他答主所說,regular和workshop之間。中國標杆CCF估計嚴格來看是算不了B了,畢竟short paper和Demo paper在正刊裡都算不了。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    【新智元導讀】KDD 2020最佳論文新鮮出爐!最佳學生論文、最佳論文亞軍均被華人學生(一作)摘得,來看看這些論文出自誰之手吧!KDD Best Paper 終於來了!受疫情影響,今年第26屆國際數據挖掘頂會 ACM SIGKDD 於8月23日-27日以虛擬線上方式召開。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎,清華入選論文實力霸榜
    其中由谷歌研究院的研究者Walid Krichene和Steffen Rendle獲得最佳論文獎,杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得本屆會議的最佳學生論文獎。 此外,湯繼良、盛勝利、唐傑等華人學者在本屆 SIGKDD 大會上也獲得了多項大獎。
  • 五大頂尖企業研究院的116篇論文ICLR2018錄用論文,七大趨勢全解讀
    雷鋒網 AI 科技評論按:時間過得好快,Yann LeCun 仿佛剛剛在 Twitter 上感慨 ICLR 2018 的參會人數比 2017 年再次翻倍,而現在 ICLR 2018 已經於加拿大當地時間 5 月 3 日結束了。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    在多個模擬域和現實世界曲棍球遊戲中,該方法優於其他方法,並學會影響其他智能體。本研究中學習和利用潛在意圖的方法流程圖。學習和影響潛在意圖(LILI)算法。air hockey 實驗的學習結果。推薦:CoRL 2020 最佳論文。
  • 谷歌科研成果 2018 年年終總結(下篇)
    雷鋒網 AI 科技評論編譯整理如下:谷歌在 2018 年在下面這些方面也有所進展:AutoMLAutoML 也被稱作「元學習」,主要通過機器學習方式讓機器學習的某些方面實現「自動化」。我們很高興得知 TensorFlow 作為頂級機器學習和深度學習框架在 Github 上擁有強大的號召力。TensorFlow 團隊也一直致力於實現快速解決 Github 上存在的問題,為外部貢獻者提供更順暢的操作通道。根據谷歌學術檢索,我們已公開發表的論文持續為全世界的大部分機器學習和深度學習研究提供了有效支持。
  • 谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI最新消息,谷歌推出了NLP系列「芝麻街」的新成員Big Bird。△ 「芝麻街」中的Big Bird眾所周知,谷歌開發的BERT,曾經被稱為「地表最強」NLP模型。而BERT,則與美國知名動畫片「芝麻街」(Sesame Street)裡的虛擬人物同名。
  • 2分鐘論文 | 用 谷歌「AI可解釋性」 看懂機器學習
    上周,谷歌Jeff Dean在推特上轉發了一句話「還認為神經網絡是黑盒嗎?要不再想想 :) 」。還配上了《紐約時報》一篇名為《谷歌研究人正在搞懂機器學習》的文章。左圖:可以被神經網絡識別,比如說,告訴我們圖片裡有沒有花瓶或檸檬。
  • NeurIPS2020獎項出爐:GPT-3等三項研究獲最佳論文獎,華人一作論文...
    北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。