機器之心報導
編輯:魔王、杜偉、小舟
剛剛,正在進行中的 EMNLP 2020 大會公布了一系列獎項,其中最佳論文獎由加州大學伯克利分校的研究者獲得,愛丁堡大學華人博士生 Yanpeng Zhao 為一作的論文獲得了最佳論文榮譽提名獎(共 4 篇論文獲此獎項)。另外,本屆大會的最佳 Demo 獎由大家非常熟悉的 Hugging Face 團隊摘得。
EMNLP 是國際語言學會(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領域的頂級國際會議,每年舉辦一次。受疫情影響,今年的 EMNLP 會議以線上形式舉行。
EMNLP 2020 共收到投稿 3677 篇,其中有效投稿為 3359 篇,接收論文數量為 752 篇,包括長論文 602 篇、短論文 150 篇。
從接收率看,EMNLP 2020 的論文接受率創下新低,為 22.4%。其中長論文接收率為 24.6%,短論文接收率為 16.6%。
根據大會公布信息,美國、中國、英國、德國、印度、加拿大、日本的論文投稿量最多,中美兩國均有 1000 餘篇論文投稿。而就各國論文接收率而言,英國、新加坡和丹麥的論文接收率名列前茅,中國的論文接收率僅有 13.2%,低於大會平均接收率。
另外,我們參考了 Aminer 平臺對於 EMNLP 2020 會議的統計數據。從熱門選題來看,EMNLP 2020 會議涉及了語言模型、神經機器翻譯、文本生成等主題:
據 Aminer 統計,入選 EMNLP2020 論文最多的學者是來自阿里巴巴達摩院的邴立東和來自 Salesforce AI 研究院的 Caiming Xiong,分別有 9 篇論文入選。此外,新加坡科技設計大學陸巍教授、清華大學劉知遠教授、哈爾濱工業大學劉挺教授、伊利諾伊大學韓家煒教授、復旦大學黃萱菁教授、微軟亞洲研究院周明博士等人的論文數量位居前列。
圖源:https://www.aminer.cn/conf/emnlp2020/papers
目前,EMNLP 2020 會議頒發了最佳論文獎、最佳論文榮譽提名獎、最佳 demo 獎多個獎項。
最佳論文
今年的最佳論文獎項頒發給了加州大學伯克利分校的研究《Digital Voicing of Silent Speech》。
論文連結:https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf
作者:David Gaddy、Dan Klein(加州大學伯克利分校)
在最佳論文中,來自加州大學伯克利分校的研究者們探究了無聲語音的數位化發聲任務,其中基於捕獲肌肉衝動的肌電圖(EMG)傳感器度量,將無聲口語單詞轉換為可聽語音。儘管此前已經有利用有聲語音期間收集的 EMG 訓練語音合成模型的研究,但該研究首次利用了在無聲發音期間收集的 EMG 進行訓練。
模型中所使用數據的三個組成部分。
具體而言,研究者提出了一種通過將音頻目標從有聲信號轉換為無聲信號來對無聲 EMG 進行訓練的方法。與僅使用有聲數據進行訓練的基線方法相比,該方法顯著提升了從無聲 EMG 中生成音頻的清晰度。在某種數據條件下,該方法將轉錄詞誤差率從 64% 降至 4%;另一種數據條件下,轉錄詞誤差率從 88% 降至 68%。為了促進這一研究任務的進一步發展,該研究已經共享了無聲和有聲面部 EMG 度量的新數據集。
最佳論文榮譽提名獎
這次會議共有四篇論文獲得最佳論文榮譽提名獎。其中包括華人作者 Yanpeng Zhao 及其導師 Ivan Titov 的論文《Visually Grounded Compound PCFGs》。據了解,這篇論文獲得了 4.5/5, 4.5/5, 4.5/5 的評審分數。
論文:Visually Grounded Compound PCFGs
論文連結:https://arxiv.org/pdf/2009.12404.pdf
項目地址:https://github.com/zhaoyanpeng/vpcfg
作者:Yanpeng Zhao、Ivan Titov(愛丁堡大學)
論文:Spot The Bot: A Robust and Efficient Framework for the Evaluation of Conversational Dialogue Systems
論文連結:https://arxiv.org/pdf/2010.02140v1.pdf
作者:Jan Deriu、Don Tuggener、Pius von Daniken、Mark Cieliebak(蘇黎世應用科技大學)、Alvaro Rodrigo(西班牙國立遠程教育大學)、Jon Ander Campos、Aitor Soroa、Aitor Soroa(西班牙巴斯克大學)、Thiziri Belkacem(法國 Synapse Développement)
論文:GLUCOSE: GeneraLized and COntextualized Story Explanations
論文連結:https://arxiv.org/pdf/2009.07758.pdf
作者:Nasrin Mostafazadeh、Aditya Kalyanpur、Lori Moon、David Buchanan、Lauren Berkowitz、Or Biran、Jennifer Chu-Carroll(Elemental Cognition 團隊)
論文:If beam search is the answer, what was the question?
論文連結:https://arxiv.org/pdf/2010.02650.pdf
作者:Clara Meister(蘇黎世聯邦理工學院)、Tim Vieira(美國約翰霍普金斯大學)、Tim Vieira(劍橋大學)
最佳 demo 論文
此外,EMNLP 2020 還頒發了最佳 demo 論文,獲獎團隊是大家非常熟悉的 Hugging Face。
論文連結:https://arxiv.org/pdf/1910.03771.pdf
transformers 庫地址:https://github.com/huggingface/transformers
作者:Thomas Wolf、Lysandre Debut、Victor Sanh、Julien Chaumond、Clement Delangue、Anthony Moi、Pierric Cistac、Tim Rault、Remi Louf、Morgan Funtowicz、Joe Davison、Sam Shleifer、Patrick von Platen、Clara Ma、Yacine Jernite、Julien Plu、Canwen Xu、Teven Le Scao、Sylvain Gugger、Mariama Drame、Quentin Lhoest、Alexander M. Rush(Hugging Face 團隊)
模型架構和預訓練的發展促進了自然語言處理領域近期的進展:Transformer 架構推動了更高容量模型的構建,預訓練使得在大量任務中高效利用模型容量成為可能。Hugging Face 團隊創建了 transformers 開源庫,旨在將這些 NLP 進展開放給更廣泛的機器學習社區。該庫包含多個精心設計的 SOTA Transformer 架構,並使用統一的 API。transformers 庫匯集了社區構建的多個預訓練模型,並向社區開放。目前,該庫的 star 量高達 36.9K,包含數千個預訓練模型。
參考連結:
https://2020.emnlp.org/blog/2020-11-19-best-papers
https://2020.emnlp.org/blog/2020-09-18-decisions/
https://www.aminer.cn/conf/emnlp2020/homepage