ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注 | ACL 2018

2020-12-04 雷鋒網

為期六天的 ACL 於上周在墨爾本會展中心落下帷幕,在這六天時間內,共計八場 tutorial,三百多篇論文展示,十五場 workshop,涉及機器翻譯、機器學習、問答系統、信息提取、語義分析等多個方向的研究。毫無疑問,這是一場 NLP 領域的年度盛會。

今年的觀眾群體一如往昔,從學界的教授、學生,到業界的各類研究人員。雖然角色不一,但對於大部分人來說,參會的目的大同小異:聽取會上各式各樣的報告,了解學術圈和工業界中一些比較前沿的技術和方向,認識業內人士,展開進一步交流和探討。

雷鋒網此次 ACL 之行採訪到騰訊 SNG 數據中心總監劉黎春以及該中心知文團隊技術負責人鍾黎。作為第一次參加 ACL 的「新人」,劉黎春對 AI 科技評論描述了他的參會體驗。

作為騰訊參會代表之一,他在主會這幾天,一直忙於與參會學生進行聯繫與交流。他表示,此行 ACL 的目的一方面是了解學術界和工業界的前沿技術動向,另一方面是建立和高校老師、學生間的聯繫,交流探討合作機會,看是否有哪些比較好的技術,能用在自己目前的業務場景下。

他進一步說到,和學生聊完之後也會有諸多收穫,「比如我們昨天跟一個 UIUC 的博士生交流,她的博士課題主要是做 representation learning,這次 ACL 的工作是文本相似度計算,其實在我們目前的 QA 技術裡,其中一個重要的場景就是解決文本相似度計算的問題。」

劉黎春如是評價 ACL——「面向自然語言處理,更加專業。」結合他此前參加 AAAI 的經驗,他對雷鋒網表示,ACL 在 NLP 領域更加專業,更加細分,而 AAAI 是一個綜合性的 AI 的會議,所以 AAAI 的文章會更多、更雜,包括計算機視覺、機器學習、自然語言處理等。在他看來,雖然這兩個會議關注的重點不一樣,但參加這兩個會議對他們團隊都非常有幫助。ACL 可以讓他們在 NLP 領域結識更多的學生,包括高校的老師和企業的研究人員。AAAI 則可以看到一些在其他領域比較好的方法,可以嘗試是否能將其遷移到 NLP 領域。

熱門領域集中在機器翻譯和 QA,目前沒有較大突破

而針對 ACL 的研究熱點,他表示,可以明顯看到,不管是投稿文章,還是接收文章,很多都屬於 QA、對話和機器翻譯領域。「這兩年並沒有發生太大變化,包括 ACL 2018 的兩篇 best paper(Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information,Know What You Don't Know: Unanswerable Questions for SQuAD),都與 QA 緊密相關。此外,深度學習仍然是這兩年的主題,佔據統治地位。不僅僅是劉黎春持有以上觀點,在這幾天的會議上,諸多與 AI 科技評論交流的老師不約而同表達了類似看法——很難看到重大突破。「Attention 仍然是一個非常重要的主題,可以看到超過 90% 的文章都用到 Attention。」

關於 Attention 的典型例子是谷歌在去年六月發表的 Attention Is All You Need 一文,他們提出一個只基於 Attention 的結構來處理機器翻譯等與序列模型相關的問題,一改傳統基於 RNN 或者 CNN 的模型基礎,該模型可以高度並行地工作,在提升翻譯性能的同時訓練速度也獲得了極大提升。這掀起了 Attention 機制的使用熱潮。

雖然沒有較大的技術突破,但在 ACL 2018 上也能看到一些創新點。「我覺得今年 VAE(Variational Auto-Encode)技術用得比較多,強化學習和對抗學習一直是這兩年的熱門。」騰訊知文團隊負責人鍾黎對雷鋒網如是說到。

鍾黎對雷鋒網表示,今年也提出了一些比較有意思的問題。比如說 learning to ask,以前我們做問答都在考慮 learning to answer,現在開始考慮如何問問題。另外也有出現一些新的任務,比如說有篇文章考慮預測對話過程中出現不符合預期的轉折,對話會跑偏等,可以提前去判斷跑偏情況。

此外,鍾黎表示,今年有很多文章都是在生成上做控制,比如說控制文字風格、情感、回復的情況等等。

提到今年的亮點文章,劉黎春與鍾黎對清華與微軟合作的一篇文章印象深刻。

以前在解決多輪對話的時候,這是一個對業界極具挑戰性的問題,但這一次在會上,清華跟微軟合作的一篇文章通過反問一些問題,來更好地了解用戶在對話裡想要達成的目的,更好地去把握用戶的意圖,給用戶提供更好的對話體驗。他們如是評價:「這是比較好的一個嘗試方向。」

具體說來,這一文章講到了學習提問(learning to ask),即如何去找到一些更好的提問。會有一些提前設置好的主題詞,先定義好 what——做什麼,how——怎麼做等幾種類型,然後根據不同的類型來學習提問,這樣可以保持對話的持續性和流暢性,使得對話更加人性化。

自然語言處理頂會上的中文測評系統

當然,在這樣一個國際性會議上,不止可以看到一系列最新的計算機技術,還可以看到 AI 對傳統語言學產生的影響。來自北京語言大學的助理研究員饒高琦今年在 ACL 上作為 NLPTEA: The 5th Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席,向雷鋒網重點介紹了 CGED(Chinese Grammatical Error Diagnosis)測評系統。

CGED 是自然語言處理領域的權威賽事,由 IJCNLP 聯辦,今年已是第五屆,參賽選手需要用人工智慧算法自動識別中文裡面的語法錯誤。

「簡單來說,我們的測評是給外國人學漢語做的一個中文語法糾錯系統,中國人很少會犯語法錯誤,但對於學中文的老外來說,這種錯誤常常發生。此外,兒童在小學、中學等階段的學習過程中,也很容易犯錯。」

饒高琦表示,他們主要教外國人學漢語,有一半的學生來自海外。他們會在課堂上以及一些漢語類考試中積累數據,再將訓練集開放出來,然後開發出訓練模型,進行自動檢錯和改正,幫助老外校對中文語法錯誤。

在去年,阿里巴巴 iDST 團隊在 CGED 三個 level 中全面奪冠,今年哈工大、科大訊飛聯合拿了第一名,社科院取得了第二名,阿里排名第三。饒高琦表示,目前這個評測系統還比較困難,因為比較缺數據。但他進一步表示,這一系統特別有用。「現在每年新增 210 萬註冊學生學漢語,這個市場本身很大,但是跟技術存在巨大落差。我想將來這是一個蠻重要的增長點,會引發很多人前來關注。包括企業界已經看到了前景,學術界也有中科院、哈工大、鄭州大學、雲南大學等參與了這一評測。」

站在語言學家的角度,饒高琦表示,NLP 的發展對語言學提出的一個新挑戰就是如何生產 AI 可以用的知識。「以前的語言學就是面向人的知識,但現在主要是面向 AI。什麼樣的知識可以被 AI 用,這是語言學家現在會更多關注的一個問題,也是我比較關注的一個問題。」

而此外,他也表示,今年成立亞太地區的 AACL,這說明亞洲的研究力量成為不可忽視的群體。不管是這一領域的研究,還是工作機會,一定會越來越多。

當然,以上內容只是 AI 科技評論在 ACL 上的一小部分見聞。在這樣一個 AI 迅速發展的時代,AI 科技評論將繼續致力於連接學術界與產業界,跟蹤學術最新動態,報導產業最新趨勢。接下來,AI 科技評論也將與大家相約 KDD、ECCV 等國際性 A 類學術會議,帶來更多精彩報導,敬請期待。

相關焦點

  • ACL 2018:Attention 機制佔主流,中文語法檢錯測評引關注 | ACL...
    這掀起了 Attention 機制的使用熱潮。雖然沒有較大的技術突破,但在 ACL 2018 上也能看到一些創新點。「我覺得今年 VAE(Variational Auto-Encode)技術用得比較多,強化學習和對抗學習一直是這兩年的熱門。」騰訊知文團隊負責人鍾黎對雷鋒網如是說到。鍾黎對雷鋒網表示,今年也提出了一些比較有意思的問題。
  • 一窺ACL 2018 最佳論文
    說回 ACL 2018,ACL 2018 組委會於 6 月 10 日直接在官網發出公告,公布了今年 5 篇最佳論文的評選結果。結果中體現出的這種模式表明 RNNG+束搜索的組合可以作為正常人類語言處理中的語法處理的一個不錯的機理解釋模型。
  • ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了
    新智元報導 來源:acl2018.org編輯:聞菲、小芹【新智元導讀】ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2018將於7月15日至20日在澳大利亞墨爾本舉行。昨天,ACL官網公布了本屆大會的最佳論文,包括3篇最佳長論文和2篇最佳短論文,新智元帶來介紹。
  • 論文| 自然語言處理頂會ACL 2018該關注什麼?螞蟻金服專家告訴你!
    原標題:論文 | 自然語言處理頂會ACL 2018該關注什麼?螞蟻金服專家告訴你! 一年一度的ACL大會今年7月15日至20日在澳大利亞墨爾本召開。 總的來說,這屆ACL中基於神經網絡的文章佔絕大多數。但是一個關於Amazon Prize的slide也很有趣。華盛頓大學的Yejin Choi教授通過這個slide,說明神經網絡大規模運用還有些許多工作要做;她的實驗室本來想用一個統一的神經網絡模型做一個可以參加Amazon Prize的對話系統。但是最終的實現的冠軍系統還是運用各種已有的子系統。
  • 來自一位參與了acl2019討論的學者的論點
    近期,nlp領域發生了一些重大變化,其中包括:來自瑞典、丹麥和波蘭的頂級學者開始在研究頂刊acl上發表基於最新cnn的corpus和machinereadingcomprehension,以及其他一些有趣的project。
  • 從想法到實幹,2018年13項NLP絕美新研究
    其中有的想法在過去一年非常受關注,大家圍繞這些完美的觀點展開了很多研究工作與實踐。而有的想法並不是當前趨勢,不過它們有可能在未來變得流行。因此,機器之心在 Ruder 介紹的基礎上,重點關注今年的前沿趨勢,並推薦一些真正好用的 NLP 新工具。在本文中,我們會重點關注 2018 年裡的神經機器翻譯與預訓練模型,這兩個概念真的非常 Excited!
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    5)穩健的無監督方法(Robust unsupervised methods)今年,我們(http://aclweb.org/anthology/P18-1072)和其他研究者(http://aclweb.org/anthology/D18-1056)都已經觀察到,當語言不同時,無監督的跨語言詞向量方法就會失效。
  • 科學網—幫機器學會中文分詞和詞性標註
    >本報記者 鄭金武 「部分居民生活水平」這樣的中文短語,人們理解起來沒有太大困難。 在近日於線上舉行的自然語言處理(NLP)領域學術會議ACL 2020上,創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題提出新模型,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪聲」誤導,大幅度提升了分詞及詞性標註效果。 「中文的分詞和詞性標註是自然語言處理的基本任務,對於後續的應用和任務處理非常重要。」
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • ACL 2019 27 篇論文實現代碼(持續更新中)
    ACL 2019 將於今年 7月28日-8月2日 在義大利佛羅倫斯舉行,作為 NLP 頂級會議之一,備受廣大 NLP 學術青年的關注ACL 2019 共接收了 765 篇論文,目前官網已經全部公布了,官方連結:http://www.acl2019.org/EN/program/papers.xhtml但是官網沒有公布連結,部分論文也沒有展示出來。所以AI研習社給大家整理了343篇論文,供大家學習!
  • 7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述
    更多精選論文(附音頻)論文 1:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList作者:Marco Tulio Ribeiro、Tongshuang Wu、Carlos Guestrin、Sameer Singh論文連結:https://www.aclweb.org
  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
  • FLAT:中文NER屠榜之作!復旦大學邱錫鵬團隊出品
    不同於英文NER,中文NER通常以字符為單位進行序列標註建模。這主要是由於中文分詞存在誤差,導致基於字符通常要好於基於詞彙(經過分詞)的序列標註建模方法。那中文NER是不是就不需要詞彙信息呢?答案當然是否定的。
  • | ACL 2019
    Gittens 等人在論文「Skip-Gram – Zipf + Uniform = Vector Additivity」(https://www.aclweb.org/anthology/P17-1007)中對此理論提出了批評,他們認為該理論假設詞向量是一種先驗概率,並且是通過隨機地對從單位曲面上採樣得到的向量進行放縮生成的(或者說具有與該過程一致的屬性)。
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    智能語音前沿技術——發音檢錯糾錯和語音轉換 鄧佳佳 發表於 2018-03-22 15:38:49 近年來,人工智慧在國內外掀起了新一輪技術創新的浪潮
  • 英語語法輔導:使用名詞attention的三點注意
    新東方網>英語>英語學習>語法詞彙>語法指導>正文英語語法輔導:使用名詞attention的三點注意 2013-01-12 15:19 來源:可可英語 作者:
  • 香港中文大學(深圳)舉行綜合測評考試 題目難度不小
    原標題:港中大綜合測評考試題令人腦洞大開 香港中文大學(深圳)廣東省631綜合測評考試筆試現場深圳特區報記者 劉羽潔 攝   經過嚴格的篩選與資格審查,6月12日,近1800名學生參加了香港中文大學(深圳)廣東省631綜合測評考試,競爭180個錄取席位(文科47人,理科133人),入圍學生名單將於6月21日左右對外公示。另外,港中大(深圳)今年繼續在廣東實行「雙軌制」招生,還會通過純憑高考模式錄取36人(文科11人,理科25人),即共在粵招生216人。
  • ACL 禁止投稿論文提交 arXiv,雙盲評審真的有效嗎?
    這些政策實際上適用於所有的ACL會議,從2018年1月1日的提交截止日期開始。我們推薦與ACL會議關聯的其他會議和研討會也採用相同的政策,除非這與他們本來的政策相衝突。ACL會議和TACL要求提交論文匿名化。如果作者在提交截止日期前1個月發布或更新一個匿名的預印版本,直到通知或撤回的這段時間內,提交者將不會被認為是匿名的。如果沒有正確的匿名化,提交將被拒絕。
  • ACL 2020投稿破 3 千,到底有多少人在做 NLP 研究?
    (作者註:由於中文名字的拼音與性別識別的關聯較小,因此中文作者的性別較難識別。) 1)女性發表的論文佔多大比例?下面這幅圖是女性作為第一作者在歷年論文中所佔比例經過統計,女性作為第一作者發表論文數量約26637篇,大約佔總論文數量的30.3%。