9篇論文、12個workshop、2個Tutorial,谷歌是 ACL 2017上亮眼的...

2020-12-25 雷鋒網

雷鋒網(公眾號:雷鋒網)AI科技評論按:計算機語言學和自然語言處理最頂尖的會議之一ACL 正在2017年7月30日至8月4日期間在加拿大溫哥華舉行。雷鋒網 AI科技評論將赴前線帶來一手報導,並對論文及大會概況進行梳理。

ACL 2017中,谷歌的參與力度極大

在剛剛結束的 CVPR 2017中,來自各大科技界公司的論文就數量眾多;ACL 2017 中業界公司們同樣是一股重要力量。谷歌就已經發文對自己參加 ACL 2017 的各方面情況做了介紹,雷鋒網 AI 科技評論編譯如下。

作為自然語言處理和理解方面水平領先的研究團隊、以及 ACL 2017 的鉑金贊助商,谷歌會在這屆 ACL 上大展拳腳,研究範圍涵蓋句法、語義、論述、交談、多語言建模、情緒分析、問答、總結,以及構建一般意義上的監督和無監督系統、頂尖水平的建模以及根據非直接的監督學習。谷歌希望 ACL 2017 的參會者都可以到谷歌的展位前留步,看看他們的demo、見見他們的研究者,以及討論谷歌正在進行的項目和可能的研究機會,來為地球上的幾十億人解決一些有價值的問題。

在此次 ACL 中,有兩位谷歌的研究員 Sujith Ravi 和 Thang Luong 分別擔任機器學習和機器翻譯兩個區域的區域主席;還有 Margaret Mitchell 擔任著公關主席。

研究成果和大會活動方面,谷歌此次公有9篇論文被 ACL 接受;另外還有12個Workshop和2個Tutorial,可謂是相當充實精彩。

9 篇 ACL 接受論文簡介

  • A Polynomial-Time Dynamic Programming Algorithm for Phrase-Based Decoding with a Fixed Distortion Limit

    • 一種用於基於短語的翻譯模型解碼的、帶有固定失真限制的多項式-動態時間編程算法

    • 論文簡介:基於短語的翻譯模型解碼一般情況下都被認為是NP完全問題,可以看作是旅行商問題的簡化形式(Knight,1999)。在實際使用中,人們經常為基於短語的翻譯系統增加一個硬性失真限制,限制翻譯過程中短語的移動。然而,增加的這種限制對複雜度的影響並沒有得到充分的研究。這篇論文中描述了一個為基於短語的解碼器設計的、帶有固定失真限制的動態編程算法。這種算法的時間複雜度是O(nd!lh^{d+1}),其中 n 為句子長度,d 為失真限制,l 是從句子中任意位置算起的短語數目邊界,h 則與任意待翻譯的詞在目標語言中的翻譯種類的最大數目有關。這個算法使用了一種新的表徵,而這樣的表徵給人們如何理解基於短語的翻譯模型解碼帶來了新的視角。

    • 這篇論文有口頭報告環節

    • 論文地址:https://www.transacl.org/ojs/index.php/tacl/article/view/1020 

  • Cross-Sentence N-ary Relation Extraction with Graph LSTMs 

    • 利用圖 LSTM 做跨句子的 n 元關係提取

    • 論文簡介:以往關係抽取方面的研究都關注的是單個句子中的二進位關係。近期的 NLP 研究開始進軍高價值的領域,激發了在更通用的設定下跨越多個句子提取 n 元關係的研究熱情。這篇論文中,作者們研究了一種基於圖 LSTM 的關係提取框架,它可以輕鬆地進行拓展用於多個句子間的 n 元關係提取。圖的格式提供了一種統一的方式用來探索不同的 LSTM 方案並包含多種句內和句間的依賴性,比如序列、句法、論述關係。可以為這些實體學習出一個魯棒的內容表徵,然後把它作為關係分類器的輸入,這樣就可以方便地拓展為任意數目的多元關係,從關聯關係中進行多任務學習也可以。論文中用精準醫療中的兩個重要領域對所提的框架進行了評估,展現出它在監督學習和弱監督的條件下都可以發揮作用。跨句子的關係抽取可以產生更多的知識,多任務學習也顯著提升了抽取的準確率。論文中還詳盡對比了不同的 LSTM 方法,對語言學分析會如何影響模型表現提出了有趣的見解。

    • 這篇論文有口頭報告環節

    • 論文地址:https://www.transacl.org/ojs/index.php/tacl/article/view/1028 

  • Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision

    • 神經象徵機器:通過弱監督學習Freebase中的語義分析器

    • 論文簡介:利用神經網絡的統計能力做語言理解和象徵推理是很難的,這需要神經網絡在大規模知識資料庫中執行高效的集成操作。在這項研究中,作者們介紹了一種神經象徵機器(Neural Symbolic Machine,NSM),其中包含兩個部分:1,一個神經網絡「編程器」,也就是一個把語言映射到程序的串到串模型,其中還使用了一個可變值的內存來處理組合性;2,一個計算象徵的「計算機」,也就是一個 Lisp 解釋器,它可以執行程序,而且可以通過修剪搜索空間來幫助找到好程序。作者們把所構建的預測問題作為一個任務,然後用強化學習的方法來直接優化任務反饋。為了在弱監督的條件下訓練模型,並提升強化學習的穩定性,作者們使用了一個迭代的最大似然訓練過程對其進行了增強。NSM在 WebQuestionsSP 數據集上只用問-答對訓練就可以取得前所未見的表現,不需要另外獲取任何特徵工程或者特定領域的知識。

    • 論文地址:https://arxiv.org/abs/1611.00020 

  • Coarse-to-Fine Question Answering for Long Documents

    • 用於長文章的粗讀到精度問題回答

    • 論文簡介:論文中提出了一種用於回答問題的框架,它對於較長的文檔也可以保持現有模型性能的最佳水平,甚至有所提升。多數成功的閱讀理解方案都依靠的是循環神經網絡(RNNs),在長句子上運行這樣的網絡非常的慢,因為很難並行處理多個句子。人類閱讀時可以在段落間快速跳轉、找到有關聯的部分、然後仔細閱讀這些部分形成答案,作者們就受此啟發把一個用於選擇有關的句子的粗大、快速的模型和從選擇到的句子中生成答案的高成本 RNN 組合在一起。這些選出的句子也就是從答案中合併訓練得到的潛變量,這個過程只用到了強化學習。實驗中這個模型在富有挑戰性的 WIKIREADING 數據集的子集和一個新數據集中都表現出了頂級的水平,同時模型的速度還提升了3.5倍到6.7倍。

    • 論文地址:https://homes.cs.washington.edu/~eunsol/papers/acl17eunsol.pdf 

  • Automatic Compositor Attribution in the First Folio of Shakespeare

    • 用於莎士比亞的 First Folio 的自動創作者歸因

    • 論文簡介:創作者歸因是一項依賴對頁面做拼寫變化分析和視覺細節檢查的書目研究,它能夠發現歷史印刷品中的一組頁面是出自誰的手中。這篇論文中介紹了一種新的無監督模型,它可以聯合描述所需的文本和視覺特徵用來區分創作者。把這種方法應用在莎士比亞的 First Folio 的圖像之後,該模型預測出的屬性結果和書目研究學者的人工判斷契合度達到了87%,即便是在ORC後的文本輸出結果上。

    • 論文地址:https://arxiv.org/abs/1704.07875 

  • A Nested Attention Neural Hybrid Model for Grammatical Error Correction

    • 用於語法錯誤更正的含有注意力的混合神經網絡模型

    • 論文簡介:語法錯誤更正系統努力完成兩類任務,一類是更正語序和用法方面的大範圍錯誤,另一類是糾正局部的拼寫和變形錯誤。通過在近期的神經機器翻譯方法基礎上進行進一步開發,論文中為語法錯誤更正提出了一種新的用於帶有內含的注意力層的混合式神經網絡模型。實驗表明這種新模型通過單詞集成和字符級別信息的方法,對以上兩類錯誤都可以有效更正,在標準 CoNLL-14數據集上的 benchmark 結果也顯示出該模型的表現相比以往模型有著顯著提高。進一步的分析還表明,內含的注意力機制的使用對所提模型的性能提升起到了很大作用,可以證明它對於需要在拼寫上進行細微修改的局部錯誤更正中發揮的作用尤其好。

    • 論文地址:https://arxiv.org/abs/1707.02026 

  • Get To The Point: Summarization with Pointer-Generator Networks

    • 指向重點:用指針-生成器網絡進行文本總結

    • 論文簡介:串到串的神經網絡編碼模型為文本的抽象總結提供了一種可行的新途徑(這意味著這些總結不再局限於簡單地從原始文本中對段落做選擇和重新排序)。然而,這些模型都有兩個缺點:它們容易出現不準確的事實表達,而且容易用詞經常重複。在這篇論文中,作者們提出了一個新穎的架構,它可以用兩種正交的方式增強標準的串到串注意力模型。首先,論文中使用了一個混合「指針-生成器」網絡,它可以通過指針的方式從源文本中複製詞彙,這有助於提高重新生成的信息的準確率,同時還能靠生成器保留生成新詞的能力;其次,作者們使用了覆蓋率的指標來追蹤已經得到總結的內容,這可以抑制重複。把這種方法用於 CNN、Daily Mail 文章的總結任務中,表現可以領先當時最好的抽象方法 ROUGE 分數2分以上。

    • 論文地址:https://arxiv.org/abs/1704.04368 

  • Identifying 1950s American Jazz Composers: Fine-Grained IsA Extraction via Modifier Composition

  • Learning to Skim Text

    • 學會跳過文本

    • 論文簡介:循環神經網絡(RNN)在自然語言處理的許多自領域中都體現出了不小的潛力,包括文檔分類、機器翻譯、自動回答問題等等。但是在這些潛力之外,許多 RNN 模型都需要逐字地讀完整段文字,這樣就讓它們處理長文檔的時候非常慢。舉例說明的話,讓 RNN 讀一本書然後回答關注書的問題就很難。在這篇論文中,作者們展示了一種在有必要的情況下邊閱讀文字邊跳過不重要的信息的做法。其中的模型是一個循環神經網絡,它能夠學會看到輸入文本的前幾個字之後就知道跳過多遠。作者們使用了一種標準的策略梯度方法來訓練模型做出離散的跳過決定。論文中在四個不同的任務中對模型進行了測試,包括數字預測、情緒識別、新聞文章分類以及自動問答,這個修改後帶有跳過功能的 LSTM 可以比標準的序列 LSTM 快達6倍,同時還能保留同等的甚至略微提升的準確率。

    • https://arxiv.org/abs/1704.06877 

谷歌的研究人員還參與了12個workshop

  • 2017 ACL Student Research Workshop

  • WiNLP: Women and Underrepresented Minorities in Natural Language Processing

  • BUCC: 10th Workshop on Building and Using Comparable Corpora

  • CLPsych: Computational Linguistics and Clinical Psychology – From Linguistic Signal to Clinical Reality

  • Repl4NLP: 2nd Workshop on Representation Learning for NLP

  • RoboNLP: Language Grounding for Robotics

  • CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies

  • CoNLL-SIGMORPHON-2017 Shared Task: Universal Morphological Reinflection

  • SemEval: 11th International Workshop on Semantic Evaluation

  • ALW1: 1st Workshop on Abusive Language Online

  • EventStory: Events and Stories in the News

  • NMT: 1st Workshop on Neural Machine Translation

谷歌還組織了兩個 Tutorial

ACL 2017現在正在熱烈進行中,以上的研究內容中有感興趣的可以根據網址進行參與。

雷鋒網 AI 科技評論會繼續在 ACL 2017和近期的多個學術會議中帶來各方面的報導,請感興趣的讀者繼續關注我們。

相關文章:

ACL 正會在即,哪兩位重量級嘉賓將出席做主題演講?| ACL 2017

現場:ACL 2017 Day 0, 計算機語言學思想碰撞的浪潮開啟 | ACL 2017

ACL開幕式最全解讀:大會的三個「最」和三個「第一次」都是什麼?主席們分享了哪些肺腑之言?|ACL 2017

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 【ACL 2017 七大看點】北大、清華、中科院、復旦5 篇傑出論文
    可以看出,排名第一的是「信息提取、檢索、問答、文檔分析和自然語言處理應用」,有 308 篇投稿(長文 192 篇,短文 116 篇),佔據了總投稿數量的 23.4%第二是語義,159 篇投稿(長文 100 篇,短文 59 篇),佔比 12.1%第三是機器翻譯,108 篇投稿(60 篇長文,短文 48 篇),佔比 8.2%機器學習以 93 篇投稿
  • ACL 第一天:Tutorial鍾愛深度學習,唯一一個workshop關注女性群體|...
    雷鋒網 AI 科技評論將赴前線帶來一手報導,並對論文及大會概況進行梳理。今天是預熱 tutorial 環節,也是 ACL 會議延續至今的傳統,旨在幫助研究領域的新手們了解計算機語言學與自然語言處理的核心技術,同時也會介紹目前這些分領域的一些前沿內容。
  • ...6個Tutorial 和13個Workshop為什麼都「擠在」 RMIT 80號樓?
    這兩天由豐富的workshop和tutorial組成,在RMIT 80號樓的不同課室中進行。大會的餘下議程將在墨爾本會展中心舉行。雷峰網向當地的學生了解到,大會之所以分兩個地點舉辦,主要是因為前兩天的workshop數目非常多,借用了RMIT周末的課室以降低成本。 當然,這樣的機會也可以提高RMIT的認知度,令其招收到更多優秀的學生。
  • ACL 2020接收論文公布,會議將改為線上舉行
    機器之心報導機器之心編輯部不久之前,自然語言處理領域國際頂級會議 ACL 2020 論文接收結果公布。此外,受疫情影響,該會議也將改為線上舉辦。ACL 年會是計算語言學和自然語言處理領域最重要的頂級國際會議,被CCF 與清華均列為頂級 A 類會議,由計算語言學協會主辦,每年舉辦一次。
  • ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作
    5篇傑出論文獎今年,華人一作團隊拿下了最佳長論文、最佳短論文和2篇傑出論文,中科院、中國科學院大學、騰訊、華為諾亞方舟實驗室、南京理工大學、香港理工大學等榜上有名。ACL 2019接收了765篇論文,接受率為25.8%,相較於前兩年的24%左右略有上升。其中,長論文接收了447篇,短論文接收213篇,34篇demo論文被接收,還有71篇student workshop。
  • 【NIPS 2017】英偉達、谷歌研究盤點 谷歌45篇論文、28個Workshop...
    新智元AI World 2017世界人工智慧大會開場視頻  中國人工智慧資訊智庫社交主平臺新智元主辦的 AI WORLD 2017 世界人工智慧大會11月8日在北京國家會議中心舉行,大會以「AI 新萬象,中國智能+」為主題,上百位AI領袖作了覆蓋技術、學術和產業最前沿的報告和討論,2000多名業內人士參會。
  • 不僅是白金贊助商,谷歌更是ICML 2017 的重量級參與者(附59篇收錄...
    在之前的文章中,雷鋒網 AI 科技評論就介紹過434篇 ICML 收錄論文中有多達44篇都出現了谷歌的名字,谷歌的在機器學習領域的投入與成果之多可見一斑。今天谷歌也正式給出了自己的收錄論文名單,署名的谷歌的就有42篇,其中有4篇是在幾個 workshop 中。根據我們前兩天的報導,署名DeepMind的收錄論文也有25篇之多。
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    此次會議共接收論文 779 篇,包括 571 篇長論文和 208 篇短論文,論文接收率為 22.7%。接下來,我們看下 ACL 2020 的熱門研究主題。用於 NLP 的機器學習、對話與交互技術、機器翻譯、信息提取和 NLP 應用是此次會議最熱門的 5 個研究主題,每個都有超過 200 篇論文投稿。
  • ACL2019正會開幕:會議狀況全覽,周明大會演講
    在網上購買 ACL2019 參會門票時可以告知主辦方自己感興趣參與的 workshop 和 tutorial,如今這些數據統計出來,workshop 和 tutorial 都有好幾個場次的參與人數同時超過了此前。
  • ACL 2019 接收論文榜單發布,我們做了可視化分析
    接收論文列表:http://www.acl2019.org/EN/program/papers.xhtml在論文接收列表中,我們可以看到清華大學的孫茂松組共有 9 篇論文被接收,來自加州大學聖芭芭拉分校(UCSB)的王威廉組(William Yang Wang)有 8 篇論文被接收,全組共有 7 長兩短;哈工大劉挺教授也有
  • ACL 2019 所有獲獎論文將出自這32篇,多所國內高校、機構入選
    機器之心報導參與:路、張倩自然語言處理領域頂級會議 ACL 將於 7 月 28 日至 8 月 2 日在義大利佛羅倫斯舉行。今天,ACL 2019 官方網站公布了入圍論文獎項的候選名單。今日,ACL 2019 網站公布了入圍「最佳長論文」、「最佳短論文」、「最佳 demo 論文」和「傑出論文獎」的論文列表。據了解,將有 8 篇論文最終獲得這四大獎項,其中最佳長論文、最佳短論文、最佳 demo 論文各一篇,傑出論文 5 篇。
  • ACL 2018 首日:8 大 tutorial,深度強化學習最受關注 | ACL2018
    雷鋒網 AI 科技評論按:繼 2017 年的溫哥華之旅後,ACL 2018 在澳大利亞墨爾本舉辦,舉辦地點為墨爾本會展中心,也是 IJCAI2017 舉辦地。 今天是大會 tutorial 環節,雖然主會在明天召開,但作為計算機語言學和自然語言處理領域最頂尖的會議之一,tutorial 也吸引到不少參會者前來註冊。
  • ACL 2018 公布四篇最佳 demo 候選論文,三篇論文第一作者來自中國
    月 9 日,自然語言處理頂會 ACL 公布了最佳 demo 論文的四篇候選論文,名單如下:CRUISE: Cold-Start New Skill Development via Iterative Utterance GenerationOut-of-the-box Universal Romanization
  • 業界|計算語言學思想碰撞的浪潮:ACL2016
    微軟有20多位研究員參加了ACL 2016,是本次大會上一個最為重要的研究團隊之一。本次微軟研究院共為與會者帶來了1個Tutorial,2個workshop,以及17篇被錄用的論文。想知道這次ACL大會上都有哪些不容錯過的閃光?微軟亞洲研究院實習生黃丹青和閆昭給你帶來了這次大會分享。
  • 跟著大神回顧 ACL 2018:大會亮點一覽
    NLP 神經架構的語言結構相關性 workshop(RELNLP workshop)試著探討將語言結構融入模型的有用程度。Chris Dyer 在該 workshop 上的發言的重點之一是:對 NLP 而言,RNN 是否具備有用的歸納偏置。
  • 參會見聞系列:ACL 2018,在更具挑戰的環境下理解數據表徵及方法評價
    在此之前他曾在微軟、IBM 深藍以及谷歌代碼夏令營工作。他的主要研究興趣是用於領域適配的深度學習。這篇文章由 Sebastian Ruder 發表在 AYLIEN 博客,是一篇深入、全面的 ACL 2018 會議論文研究亮點回顧。雷鋒網 AI 科技評論全文編譯如下。
  • 參加workshop的論文長啥樣?
    當天早上,他作為第一作者即將在「Grippers and Other End-Effectors」上進行 ICRA 2017 的 workshop 分享。隨著五月的尾聲到來,ICRA 2017 的 workshop/tutorial 環節已經進入第三天,在穿插主題演講的同時,依然有數十個細分領域的學術分享正在緊鑼密鼓地進行。
  • IEEE VIS 2017 參會紀行(1)
    山東大學交叉研究中心可視化分析與設計實驗室有兩篇論文被IEEE InfoVis錄用:EdWordle: Consistency-preserving Word Cloud Editing 與Revisiting Stress Majorization as a Unified Framework for Interactive Constrained
  • ACL 2019 27 篇論文實現代碼(持續更新中)
    ACL 2019 共接收了 765 篇論文,目前官網已經全部公布了,官方連結:http://www.acl2019.org/EN/program/papers.xhtml但是官網沒有公布連結,部分論文也沒有展示出來。所以AI研習社給大家整理了343篇論文,供大家學習!
  • 現場:ACL 2017 Day 0, 計算機語言學思想碰撞的浪潮開啟 | ACL 2017
    根據大會日程,ACL 2017主會議(Main Conference)舉行時間為7月31日至8月2日,今天則是預熱的Totorial環節,包含六個Totorial以及一個Workshop(關於Totorial及Workshop的詳細內容可參見雷鋒網的另一篇文章《ACL 第一天:Tutorial鍾愛深度學習,唯一一個workshop關注女性群體》)。