【ACL 2017 七大看點】北大、清華、中科院、復旦5 篇傑出論文

2021-03-02 新智元

來源:ACL 2017 官網

報導:聞菲

【新智元導讀】一年一度的計算語言學頂會 ACL 即將於北京時間後天在加拿大溫哥華召開。今年會議看點在哪裡?華人學者表現如何?新智元照例為你獻上大會盤點。

國際計算語言學協會 (ACL,The Association for Computational Linguistics),是世界上影響力最大、最具活力的國際學術組織之一,其會員遍布世界各地。ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2017 除了主要會議之外,還如同其他頂級會議一樣包含研討會、專題報告、研習會和演示等。第 55 屆國際計算語言學協會(ACL)年會將於北京時間 7 月 31 日—8 月 5 日在加拿大溫哥華舉行(當地時間比北京時間晚 18 小時)。

本屆會議共收到 1419 篇投稿(長文 829篇,短文 590 篇),有 1318 篇文章(長文 751 篇,短文 567 篇)被發送出去接受審稿。最終,接收論文 302 篇(長文 195 篇,短文 107 篇),錄取率 22.91%,與往屆大致持平。

在整理投稿的過程中,我們可以發現一些很有趣的數字,也反映了一些很有趣的情況。

1. 提交時間

長文提交時間表:在截稿時期的最後 24 小時,提交數量陡增。

看見這個表,ACL 2017 的程序主席 Regina Barzilay 撰文表示,ACL 2017 委員會在大約還有 24 小時就要截稿的時候非常擔心,因為那時候才僅僅收到 342 篇投稿,這次似乎邀請了太多的審稿人。但是很快,他們的心就放了下來——在截稿時間最後 24 小時,提交數量驟增。Barzilay 不禁感嘆,看上去拖延症(或者說得好聽些,追求完美)深深根植於 ACL 研究群體……

2. 投稿熱門子領域

下面再來看看排名前 10 的子領域。

上圖是根據投稿數量製作的餅圖。可以看出,

排名第一的是「信息提取、檢索、問答、文檔分析和自然語言處理應用」,有 308 篇投稿(長文 192 篇,短文 116 篇),佔據了總投稿數量的 23.4%

第二是語義,159 篇投稿(長文 100 篇,短文 59 篇),佔比 12.1%

第三是機器翻譯,108 篇投稿(60 篇長文,短文 48 篇),佔比 8.2%

機器學習以 93 篇投稿(55 長,38 短)排名第 4,佔比 7.01%

下面是各個子領域具體投稿數量,其中列出了預期投稿數(第一欄綠色鋪底,其中紅色數字代表了領域出現了意外的增長)。

可以發現,「對話和交互系統」在今年 ACL 投稿中的熱度——有了超出 59.7% 的增長,這可能與亞馬遜 Echo 和 Google Home 等智能音箱產品走熱有關。其次是機器人視覺基礎(Vision Robots Grounding),出現了 41.9% 的增長。機器學習以 34.4% 排在第三。

組委會將 2017 年的投稿情況與 2014 年的做了對比(見下),僅僅相差 3 年,在 ACL 2017 排名第 5 的 Summarization & generation,在 ACL 2014 連前 10 都沒有進。 

3. 接收論文

接收論文 302 篇(長文 195 篇,短文 107 篇)。其中,各子領域的情況與投稿情況大致相同,也是 IE QA 文本挖掘應用排第一,語義、機器翻譯列第二、第三。社交媒體類的論文在被接收論文中數量排名第四。

ACL 2017 還有 21 篇 TACL 論文展示,以及 21 個軟體演示。

上面的結果可以有直觀的表示:

接收論文數量:藍色代表長文,綠色短文。(紅色和紫色分別代表軟體演示和在 TACL 發表的論文。)可以發現,IE QA 文本挖掘應用在接受論文中數量第一,其次是語義學,機器翻譯排第三(長短文數量總和)。

ACL 2017 共有 32 個 workshop,其中有首次舉辦的「神經機器翻譯」、「網絡語言濫用」等 workshop,也有第 21 屆北歐計算語言學大會和第 11 屆語言注釋(Linguistic Annotation)這些超過 10 年的 workshop。

根據官網最新公布的信息,ACL 2017 有 6 場 tutorial,其中有 4 場都冠名機器學習和深度學習,分別是:①多模式機器學習:整合語言、視覺和語音,②語義構成中的深度學習,③對話系統中的深度學習,④多單詞表達和搭配中的深度學習,可見計算語言學中興起的機器學習和深度學習浪潮,尤其是深度學習。

ACL 2017 還有 23 場 Student Research Workshop,這裡的內容涵蓋就很全面了,從分布式表示到 Attention 再到 Twitter 顏文字都有,但大部分都同時提到了機器學習或深度學習。

ACL 2017 有兩場 invited talks,一場偏理論,一場偏應用。

第一場:Noah Smith(華盛頓大學)

計算語言學和自然語言處理社區如今興起了表示學習(representation learning)熱潮。我將介紹在自然語言模型中使用表示學習的新方式。需要注意,一個數據驅動的模型總是有一個假設的理論(不一定是好的),我將論證語言相適應的歸納偏差(language-appropriate inductive bias)對結合了表示學習的語言模型的好處。這種偏差通常表現為模型中蘊含的假設,受限於推理算法或應用於數據的語言分析。事實上,幾十年的語言學研究(包括計算語言學)使我們現在能很好地發現歸納偏差,而新的模型又可能使我們得以探索以前不可用的偏差形式,產生語言學的新發現。我將重點關注新的文檔模型和語義結構,也會強調抽象的、可重複使用的組件及其假設(而非應用)。

第二場:Mirella Lapata(愛丁堡大學)

近年來,人們開發了大量計算工具來處理和生成自然語言文本。其中許多都變得廣為人知,比如網絡搜索,問答,情緒分析,尤其是機器翻譯。網絡的普及可以進一步增強這種處理,其應用不僅在不同語言之間(例如,從英語到法語)進行翻譯,也包括在相同的語言之間,在不同的模式之間或不同的數據格式之間進行翻譯。由於大多數檢索工具對文本數據進行操作,所以網絡中的非語言數據(例如視頻,圖像,原始碼)不能被索引或搜索。

在這個演講中,我會討論為了使個人和計算機的電子數據更易於訪問需要開發的新的翻譯模型。我將重點介紹三個示例,文本簡化,原始碼生成和電影摘要生成。我將說明如何擴大深度學習的最新進展,以便引導不同模式的一般表述,並學習如何在這些和自然語言之間進行翻譯。

中國大陸 5 篇傑出論文:清華、北大、復旦、中科院自動化所

今年早些時候,ACL 2017 公布了傑出論文,共有 22 篇。其中,有 6 篇第一作者是華人。在這當中,又有 4 篇來自中國大陸,清華、北大、復旦和中科院自動化所各有一篇入選。

下面根據每篇傑出論文在 ACL 2017 上展示的時間來排列:

論文:神經機器翻譯的可視化及理解(Visualizing and Understanding Neural Machine Translation)

作者:丁延卓、劉洋、欒煥博、孫茂松(清華大學)

論文:了解和檢測有爭議問題的各種支持論證(Understanding and Detecting Diverse Supporting Arguments on Controversial Issues)

作者:Xinyu Hua and Lu Wang(美國東北大學)

論文:一種用於文本層面話語分析的兩段解析方法(A Two-stage Parsing Method for Text-level Discourse Analysis)

作者:Yizhong Wang, Sujian Li and Houfeng Wang(北京大學)

論文:用於抽象文檔總結的基於圖的注意力神經模型(Abstractive Document Summarization with a Graph-Based Attentional Neural Model)

作者:Jiwei Tan, Xiaojun Wan and Jianguo Xiao(北京大學)

論文:通過一種基於新穎的打標籤方案,對實體和關係進行聯合提取(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)

作者:Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao, Peng Zhou and Bo Xu(中科院自動化所)

論文:命名實體識別和提示檢測的本地檢測方法(A Local Detection Approach for Named Entity Recognition and Mention Detection) 

作者:Mingbin Xu, Hui Jiang and Sedtawut Watcharawittayakul(加拿大約克大學)

論文:中文詞分割的對抗多標準學習(Adversarial Multi-Criteria Learning for Chinese Word Segmentation)

作者:陳新馳、施展、邱錫鵬、黃萱菁(復旦大學)

主席團隊:華人學者分布在 18 個領域中的 9 個領域

ACL 2017 的大會主席是賓夕法尼亞大學的 Chris Callison-Burch,兩位程序主席是上面說過的 Regina Barzilay(MIT)和新加坡國立大學(NUS)的 Min-Yen Kan 教授。

由於論文的生殺大權基本掌握在領域主席手裡,我們專門用一小節來看 ACL 2017 的領域主席。本屆大會有 61 位領域主席,分布在 18 個子領域,各領域主席人數與投稿數量基本相符。其中,華人學者分布在下面 9 個子領域,不乏中國大陸學者的身影。

Discourse and Pragmatics: Yangfeng Ji, 李素建(北京大學)

Information Extraction and NLP Applications: Chia-Hui Chang, Jing Jiang, 劉康(中科院自動化所), 劉鐵巖(MSRA)

Machine Learning: 王威廉

Machine Translation: 劉洋(清華大學), Minh-Thang Luong, 米海濤(中科院計算所), 熊德意(蘇州大學)

Sentiment Analysis and Opinion Mining: Lun-Wei Ku

Social Media: 劉知遠(清華大學), Shimei Pan 

Speech: Chia-ying Lee 

Summarization and Generation: Wenjie Li(香港理工大學)

Tagging, Chunking, Syntax and Parsing: Yue Zhang, 趙海(上海交通大學)

其他子領域,比如認知建模與心理語言學、對話和交互系統,沒有華人主席的就沒有列出。

大會的贊助商從一定程度上反映了與產業界的聯繫,從中也能看出學術成果的產業轉化情況。ACL 2017 的贊助商數量雖然不如剛結束的 CVPR 2017 那樣多,但列出來看還是很有重量——國外巨頭如谷歌、亞馬遜、Facebook、微軟、IBM,國內有 BAT、華為、搜狗、今日頭條——而中國企業(尤其是 BAT)已經在其中佔據了重要位置。

白金贊助商有 7 家:

金牌贊助商:



銀牌贊助商:



銅牌贊助商:


支持單位:

特設環節:本屆 ACL 將為預印版論文制定評審政策

本屆大會還在第二天中午特意開設了一個「meta conference」環節,討論雙盲評審以及 ArXiv 預印版相關話題。

許多研究表明,當工作的客觀價值保持不變時,單盲評審會導致評審人更偏向於某些類型的研究人員。因此,所有 ACL 會議和大多數研討會都使用雙盲評審制度。而以 ArXiv 為代表的在線預印伺服器的流行,在一定程度上威脅到了雙盲評審過程。本屆 ACL 會公開討論一個針對預印版的政策。不僅如此,大會針對 ArXiv 的使用情況也做了調研。

根據報告《Report on ACL Survey on Preprint Publishing and Reviewing》,調查於 2017 年 6 月進行,收到了 623 份完整的回覆。絕大多數受訪者(93%)是現任或前任 ACL 成員,樣本佔協會成員總數的 20% 左右,在地域、性別和學術背景等方面均具有代表性。

受訪者構成(從左到右):地域、性別和角色。17% 來自亞太地區,美洲 36%;72% 為男性;教授 28%,研究生 32%。

結果顯示,有近半數受訪者(53%)很少或從未使用預印伺服器來託管他們的研究論文,近五分之一(22%)經常或總是這樣做。

不願意將論文放在預印刷伺服器上的作者,多是因為打算在會議或期刊上發表,並希望確保雙盲評審制度。而經常將研究論文放在預印伺服器上的作者,有 28% 的人傾向於在接到通知前就上傳,另外 43% 的人願意等到論文被接收後再上傳。那些還沒接到通知就上傳論文的人主要是想宣傳自己的研究,或者是想搶論文發布的時間點(自己最早發表)。


至於是否閱讀或引用預印版論文,結果顯示,絕大多數調查對象(86%)有時會讀,較少一些(54%)有時候會引用。那些不傾向於引用預印版論文的人幾乎一致表示自己更願意引用發表過的論文(如果有的話),同時認為預印版未經同行評議因此可靠性存疑。

最後,在被問及對未來 ACL 會議評審預印版論文政策時,絕大多數受訪者(88%)認為在 ACL 會議上進行雙盲評審至關重要。這些人中的約 75%(總受訪者的 65%)認為雙盲評審比能夠提交預印本更重要。只有少數人(9%)認為預印出版比雙盲評審更重要。

總結起來,很多受訪者都表示雙盲評審十分重要,同時預印版也加快了學術交流和傳播。許多受訪者認為,解決預印版和雙盲評審之間衝突的最佳方式是讓預印版伺服器臨時屏蔽作者身份(其他方面保持不變)。

還有很多受訪者表示論文評審質量的下降表示了擔憂。

更多調查信息可以查看報告:https://www.aclweb.org/portal/sites/default/files/SurveyReport2017.pdf

ACL 2017 將在北京時間 8 月 3 日公布最佳論文及終身成就獎等獲獎信息,請關注新智元後續報導了解更多。


相關焦點

  • ACL 2019最佳論文出爐:華人團隊包攬最佳長短論文一作
    5篇傑出論文獎今年,華人一作團隊拿下了最佳長論文、最佳短論文和2篇傑出論文,中科院、中國科學院大學、騰訊、華為諾亞方舟實驗室、南京理工大學、香港理工大學等榜上有名。https://github.com/Unbabel/OpenKiwi5篇傑出論文1、Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Textshttps://arxiv.org/abs/1906.01267
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    今年的 ACL 會議於本月 5 日至 10 日在線上召開。此次會議公布了最佳論文、最佳主題論文、最佳 demo 論文、時間檢驗獎等多個獎項。此外,大會官方也介紹了今年的接收論文、熱門研究主題等數據。ACL 2020 共收到投稿 3429 篇,創下了 ACL 投稿數量的新紀錄。
  • 2020北京市高考投檔分數,清華超出北大13分,中科院超越復旦上交
    今年北京市高考成績普遍比往年高,因此各大學的投檔分數線也隨之上升,投檔670分以上的大學數量達到了9所,清華北大等重點大學的投檔線比去年高出了整整20分。清華北大毫無疑問雄霸前兩名,但是清華分數太高而去年北大與清華分數相同。北大物理專業組的投檔分比清華高出3分,扳回一局。
  • 中國化學會2017傑出科學家獎與傑出青年科學家獎揭曉
    發表SCI收錄的論文140餘篇,擁有10項國際國內專利;在國際和雙邊會議上做大會和特邀報告57次。先後獲得全國優秀科技工作者、中國分析測試協會科學技術一等獎、英國皇家化學會會士、長江學者獎勵特聘教授、傑出青年基金高等學校教學名師、北京大學十佳教師、2009年中國百篇最具國際影響論文等榮譽。
  • 中科院、華為等斬獲最佳長論文,ACL 2019獎項全部揭曉
    不久之前,ACL 2019 官方網站公布了入圍論文獎項的 32 篇候選論文。剛剛,ACL 2019 最終獲獎論文公布,多所國內高校及眾多華人學者獲得榮譽。值得一提的是,來自中科院、華為諾亞方舟實驗室等機構的論文獲得了最佳長論文;一篇來自南京理工大學論文獲得了傑出論文獎。除此之外,還有很多華人學者都是獲獎論文的作者。
  • IJCAI 2017四大論文獎項揭曉:牛津大學獲最佳傑出論文
    IJCAI 2017 於 8 月 19 日—25 日在澳大利亞墨爾本舉辦。今年 IJCAI 共收到 2540 篇論文投稿,最終錄用 660 篇,錄用率 26%。今日,IJCAI 公布了四項最佳論文獎,機器之心在現場第一時間進行了報導。
  • 人工智慧頂級學術大會論文榜:谷歌170篇屠榜 騰訊領銜產業界
    中國科研機構方面,北大位列第二,總榜排名22,共有23篇入選。 其後是中科院、浙大、港中大、南大和復旦,都有超過5篇被錄取。 清華:33;北大:23;中科院:12。 浙大:7;香港中文大學:7。 南大:5;復旦:5。
  • ACL2019最佳論文獎出爐,華人包攬眾多獎項
    來自中科院、華為諾亞方舟實驗室等機構的論文獲得了最佳長論文;一篇來自南京理工大學論文獲得了傑出論文獎。除此之外,還有很多華人學者都是獲獎論文的作者。由此可見,國內研究者在 NLP 領域還是取得非常不錯的成績。其中最佳長論文獎由張文(計算所)、馮洋(計算所)、孟凡東(騰訊)、Di You(Worcester)和劉群(華為諾亞方舟)獲得。
  • ACL 2017 傑出論文公布,國內四篇論文入選(附解讀)
    ACL 2017 除了主要會議之外,還如同其他頂級會議一樣包含研討會、專題報告、研習會和演示等。4 月 22 日,中國中文信息學會青年工作委員會在北京舉辦了一場「ACL 2017 論文報告會」,邀請了國內部分被錄用論文的作者針對其論文進行主題報告(參閱:ACL 2017 中國研究論文解讀:讀懂中國自然語言處理前沿進展)。
  • NeurIPS 2019放榜:華人作者貢獻42%,谷歌170篇屠榜;國內清華第一,騰訊領銜產業界
    中國科研機構方面,北大位列第二,總榜排名22,共有23篇入選。其後是中科院、浙大、港中大、南大和復旦,都有超過5篇被錄取。更多詳情,後面還會公布具體統計情況。清華:33;北大:23;中科院:12。浙大:7;香港中文大學:7。南大:5;復旦:5。西安交大:4;南方科技大學:4。西安電子科技大學:3;天津大學:3。
  • ACL 2019 所有獲獎論文將出自這32篇,多所國內高校、機構入選
    今天,ACL 2019 官方網站公布了入圍論文獎項的候選名單。今年 3 月,自然語言處理頂會 ACL公布了今年收到的論文投稿數量——2906,相比於去年的 1544 篇出現了大幅增長。ACL 2019 也毫無爭議地成為了目前規模最大的一場 NLP 學術會議。
  • 本年度國家傑出青年入選者分析:北大最多,深大成「黑馬」
    8月2日,2019年度國家傑出青年科學基金建議資助項目申請人名單發布。今年的「傑青」上榜人數比去年大幅擴容,從往常的200人增至300人。雖然按照往年經驗,最終仍會有一兩人被刷下,但總體上大局已定。科學網對2019年「傑青」入選者進行了分析,得出如下結論。
  • 博士補助大比拼,清華最低5.1萬,中科院、北大也不錯
    清華大學清華對學生一向比較照顧,就是本科生到實驗室,老師一般也會給點錢。大概工科學校比較有錢,也可能傳統一向如此。在清華的博士生每年最低資助標準不低於5.1萬元。一般是學校2750,導師1600以上,每個月加起來是4400以上。如果當助教什麼的,每學期還有1.3萬元。
  • 中科院官網默認的高校排名,清華北大是目標,科大比院大地位高!
    ,然而中科院院大的官網卻默默地根據中國高校的實力,給中國高校做了排名,高校網站下拉菜單具體排名情況如下:1、清華大學,2、北京大學,3、中科大,4、國科大、5、浙江大學、6、上海交通大學、7、南京大學、8、復旦大學、9、中山大學、10、華中科技大學、11、武漢大學、12、上海科技大學。
  • 數學最強的十大高校:北大一騎絕塵,復旦和山東大學分列第2、3名
    北大的數學科學院是國內數學最強的學院。在1952年,院系調整的時候,清華數學系併入北大數學系。北大數學系一躍成為國內老大。 這次阿里巴巴的全球數學競賽,一共5萬多人報名,73人獲獎,其中北大人佔了20多位。4位金獎,3位是北大人。 復旦大學
  • 浙江大學瞄準數學,從中科院引進最年輕院士,目標直指北大復旦
    根據2017年12月教育部公布的全國第四輪學科評估結果,在數學一級學科中, 排名A-以上的高校共18所,其中A+高校為北京大學、復旦大學和山東大學,排在為A即第二檔的高校共6
  • ACL 2018 公布四篇最佳 demo 候選論文,三篇論文第一作者來自中國
    for Non-Speakers Annotating Names in Any LanguageYEDDA: A lightweight Collaborative Text Span Annotation Tool值得注意的是,四篇論文中有三篇論文的一作是中國研究者,他們分別是目前任職於三星美國研究中心的
  • ACL2020華人論文入圍TOP10公布,三獎出爐,夫婦先後獲終身成就獎
    但從投稿數量來看,此次會議熱度依舊不減,達到了歷年最高的3429篇,會議共接收論文779篇,接受率為25.2%。其中,華人學者論文入圍數前十名中,王海峰、俞棟等均榜上有名。昨天深夜,ACL 2020頒布了三大獎項:終身成就獎、時間檢驗獎和傑出服務獎。
  • 清華北大一騎紅塵!中科大浙大復旦其次!
    8月11日,2020年國家傑出青年科學基金建議資助項目申請人名單公布。中國科學技術大學、清華大學入選人數最多,並列第一;南京大學表現優秀,和北京大學緊隨其後。同時,西湖大學、燕山大學等一批「雙非」及地方高校實力強勁,引發廣泛關注。科學網分析了近5年(2016-2020年)國家「傑青」名單,從更長的時間維度展示各高校和機構的實力。
  • 剛剛,ACL2019最佳論文獎出爐,劉群團隊獲最佳長論文獎
    雷鋒網 AI 科技評論按:剛剛,ACL2019最佳論文出爐,共八篇文章獲獎。其中包含一篇最佳長論文、一篇最佳短論文、五篇傑出論文、一篇最佳 Demo 論文。值得注意的是,最佳長論文獎、最佳短論文獎以及兩篇傑出論文獎(共5篇)一作皆為華人。其中最佳長論文獎由張文(計算所)、馮洋(計算所)、孟凡東(騰訊)、Di You(Worcester)和劉群(華為諾亞方舟)獲得。最佳短論文由俄亥俄州立大學的Nanjiang Jiang獲得。南京理工大學夏睿團隊和港科大的 Pascale Fung 團隊分別獲得了傑出論文獎。