雷鋒網 AI 科技評論按:隨著定於 7 月 15 日的開會日期逐漸臨近,自然語言處理頂會 ACL 2018 繼公開了接收論文名單之後,今天也公布了包含 3 篇長論文 與 2 篇短論文的最佳論文獲獎名單。
其實 ACL 2018 的流程設計與去年有所不同。ACL 2017 會前首先公布了 22 篇 outstanding 論文(可以看作最佳論文的預選論文),其中長論文 15 篇、短論文 7 篇;接著正會開始後這 22 篇論文分在四個不同的論文報告 session 中演講,然後在最後一天的頒獎典禮上公布了最終的最佳論文獎得主。當時在 ACL 2017 做現場報導的我們雷鋒網(公眾號:雷鋒網)記者岑大師聽了論文報告之後就對最佳論文得主做了自己的預測,果然猜中。(可惜今年就沒有必要猜啦)
說回 ACL 2018,ACL 2018 組委會於 6 月 10 日直接在官網發出公告,公布了今年 5 篇最佳論文的評選結果。不過截止 6 月 10 日只有其中 2 篇論文的內容是公開的,另外 3 篇論文的介紹請等待雷鋒網 AI 科技評論後續報導。
- 6 月 13 日更新了兩篇內容,目前仍有一篇未公開
最佳論文 - 長論文(3 篇)Finding syntax in human encephalography with beam search
用束搜索在人腦成像中尋找句法
論文摘要:循環神經網絡文法(RNNGs)是對於「樹-字符串」對的生成式模型,它們依靠神經網絡來評價派生的選擇。用束搜索對它們進行解析可以得到各種不同複雜度的評價指標,比如單詞驚異數(word surprisal count)和解析器動作數(parser action count)。當把它們用作回歸因子,解析人類大腦成像圖像中對於自然語言文本的電生理學響應時,它們可以帶來兩個增幅效果:一個早期的峰值以及一個類似 P600 的稍遲的峰值。相比之下,一個不具有句法結構的神經語言模型無法達到任何可靠的增幅效果。通過對不同模型的對比,早期峰值的出現可以歸功於 RNNG 中的句法組合。結果中體現出的這種模式表明 RNNG+束搜索的組合可以作為正常人類語言處理中的語法處理的一個不錯的機理解釋模型。
論文地址:https://arxiv.org/abs/1806.04127
論文四位作者中的三位來自 DeepMind,另一位來自密西根大學文學、科學與藝術學院計算神經語言學實驗室
Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information
學習如何問好的問題:通過完全信息下的期待值為追問問題排序
論文摘要:在溝通中,提問是一大基本要素:如果機器不知道如何問問題,那它們也就無法高效地與人類合作。在這項研究中,作者們構建了一個神經網絡用於給追問的問題做排名。作者們模型設計的啟發來源於完全信息情況下的期待值:一個可以期待獲得有用的答案的問題就是一個好問題。作者們根據 StackExchange 上抓取的數據研究了這個問題;StackExchange 是一個內容豐富的在線諮詢平臺,其中有人發帖諮詢以後,別的用戶會在下面追問起到解釋澄清作用的問題,以便更好地了解狀況、幫助到發帖人。論文作者們創建了一個由這樣的追問問題組成的數據集,其中包含了 StackExchange 上 askubuntu、unix、superuser 這三個領域的約 77k 組發帖+追問問題+問題的回答。作者們在其中的 500 組樣本上評估了自己的模型,相比其他基準模型有顯著的提高;同時他們也與人類專家的判斷進行了對比。
論文地址:https://arxiv.org/abs/1805.04655
論文作者來自馬裡蘭大學與微軟研究院
Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers
讓我們「再」做一次:首個檢測假定狀態觸發副詞的計算性方法
論文摘要:這篇論文中,作者們介紹了一種新的研究課題——預測副詞詞性的假定狀態觸發語(adverbial presupposition triggers),比如「also」和「again」。完成這樣的任務需要在對話上下文裡尋找重複出現的或者相似的內容;這項任務的研究成果則可以在文本總結或者對話系統這樣的自然語言生成任務中起到幫助。作者們為這項任務創造了兩個新的數據集,分別由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成,而且也專為這項任務設計了一種新的注意力機制。作者們設計的注意力機制無需額外的可訓練網絡參數就可以增強基準 RNN 模型的表現,這最小化了這一注意力機制帶來的額外計算開銷。作者們在文中表明,他們的模型相比多個基準模型都有統計顯著的更高表現,其中包括基於 LSTM 的語言模型。
論文地址:https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf
這篇論文來自加拿大麥克吉爾大學(McGill University)與蒙特婁算法學習人工智慧實驗室(MILA)
最佳論文 - 短論文(2 篇)Know What You Don't Know: Unanswerable Questions for SQuAD
知道你不知道的:SQuAD 中無法回答的問題
論文摘要:提取式的閱讀理解系統一般都能夠在給定的文檔內容中找到正確的內容來回答問題。不過對於正確答案沒有明示在閱讀文本中的問題,它們就經常會做出不可靠的猜測。目前現有的閱讀理解問答數據集,要麼只關注了可回答的問題,要麼使用自動生成的無法回答的問題,很容易識別出來。為了改善這些問題,作者們提出了 SQuAD 2.0 數據集,這是斯坦福問答數據集 SQuAD 的最新版本。SQuAD 2.0 在現有的十萬個問題-答案對的基礎上增加了超過五萬個無法回答的問題,它們由人類眾包者對抗性地生成,看起來很像可以回答的問題。一個問答系統如果想要在 SQuAD 2.0 上獲得好的表現,它不僅需要在問題能夠回答時給出正確的答案,還要在給定的閱讀材料中不包含答案時做出決定、拒絕回答這個問題。SQuAD 2.0 也設立了新的人類表現基準線,EM 86.831,F1 89.452。對於現有模型來說 SQuAD 2.0 是一個具有挑戰性的自然語言理解任務,一個強有力的基於神經網絡的系統可以在 SQuAD 1.1 上得到 86% 的 F1 分數,但在 SQuAD 2.0 上只能得到 66%。
論文地址:https://arxiv.org/abs/1806.03822
這篇論文來自斯坦福自然語言小組(Stanford NLP Group),作者之一的副教授 Percy Liang 是 NLP 領域著名的研究員,我們也曾報導過他的論文《先打草稿可以生成更高質量的文本,Percy Liang新論文廣受讚譽》
'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions
「打火機」也可能是黑暗的:建模比較性的顏色描述
(論文內容尚未公開)
這篇論文來自哥倫比亞大學
最佳論文公告參見 https://acl2018.org/2018/06/10/best-papers/
更多 ACL 2018 及其他重要學術會議報導,請繼續關注雷鋒網 AI 科技評論。
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。