月牙泉旁,NLPCC會議成功召開(圖片來源於網絡)
雷鋒網AI科技評論按:十一長假後第一周,由中國計算機學會中文信息技術專委會舉辦的 NLPCC 及系列學術活動在敦煌古鎮成功舉辦。
NLPCC從2011年開始舉辦,至今已成功舉辦 8 屆;儘管舉辦時間很短,但成長卻很迅速,在今年4月最新的CCF推薦國際學術會議和期刊目錄中 NLPCC被評選為 C類會議,這說明其已經在NLP領域具備國際影響力,已然成為國內(甚至國際)中文 NLP領域最為重要的會議之一。
本次會議參會人數達610人,匯聚了眾多國內外NLP領域的知名學者。
一、錄取情況及研究趨勢
NLPCC 2019正會開始於10月13日,在此之前與會師生已經經過了為期3天的前沿科學講習班ADL 107期(這也是CCF長期舉辦的一個特色活動)以及1 整天的workshop。
在開幕式上,作為主辦方之一,敦煌研究院副院長張先堂首先簡單介紹了莫高窟的基本歷史情況和研究情況。
隨後大會聯合主席 Ken Church發表了大會開幕致辭。Ken指出NLPCC雖然歷史並不如敦煌那麼悠久,但無論是在國內還是國外都具有重要的影響力。
聯合PC Chair 靳民彥 & 唐傑來自新加坡國立大學的Min-Yen Kan(靳民彥)教授作為本屆會議的聯合程序主席,介紹了本屆會議的基本情況。
雷鋒網了解到,本屆會議總投稿數是550篇,有效總投稿492篇;主會有效投稿451篇、workshop投稿41篇。
本屆主會投稿數量相較去年增加了46%;其中英文投稿343篇(增長75%),中文投稿108篇(增長2%)。如此規模的投稿數量無論在國內還是國際上都屈指可數。
在451篇主會投稿中,接收長文(Full paper) 92篇,錄用率為20.40%;接收短文(short paper)38篇,錄用率8.4%。包括workshops投稿在內的NLPCC 2019投稿的長文錄用率為20.93%;短文10.98%。從錄取比例可以看出,NLPCC會議為保證會議質量,在文章錄取上有非常嚴格的篩選過程,如下所示:
下圖是從領域的角度來看論文錄取情況,
從中可以看出哪些研究方向更為熱門。有意思的是,在NLP應用等領域論文投稿論文數量非常多,而像機器翻譯、知識圖譜等卻相對較少。對於論文投稿分析的高潮在於靳民彥教授根據關鍵詞的分析。
從圖中可以看出近段時間,國內NLP的研究趨勢分別為:
1、Attention
2、data and copora
3、Embeddings and Representations
值得一提的是,除了主會論文外,另有workshop投稿50多篇,其中由西湖大學張嶽教授和中科院自動化所張家俊研究員組織的student workshop接收了4篇論文,由北大孫薇薇副教授和微軟段楠研究員組織的Evaluation workshop 接收了14篇論文,另外Explainable AI workshop接收了9篇論文。
二、講了什麼
本屆會議分為前後兩個階段。
在NLPCC正會開始之前,從9日至11日在莫高窟研究院,由百度自然語言處理部首席科學家吳華、復旦大學張奇教授、北京大學萬小軍教授主持舉辦了為期三天的前沿科學講習班ADL 107期。這也是CCF長期舉辦的一個特色活動,
京東AI研究院何曉冬博士
本次ADL共有6個報告,每個報告各半天。報告人分別為字節跳動AI實驗室的周浩博士和李磊博士、微軟亞洲研究院劉樹傑研究員、伊利諾伊大學芝加哥分校的劉兵教授、京東AI研究院何曉冬博士、清華大學劉知遠副教授、清華大學張敏副教授。詳細的授課資料可關注「AI科技評論」微信公眾號,並回復「NLPCC2019」下載。
隨後 12日在敦煌華夏國際酒店中進行了為期 3 天的 NLPCC 會議。12日,分別進行了Evaluation Workshop、Student Workshop、Explainable AI workshop。其中哈工大車萬翔教授的《What is the core competence of NLPer?》:
車萬翔報告
中科院自動化所宗成慶研究員的《Distributed Representations and Neural Decoding》:
宗成慶報告
以及蘇州大學張民教授的《Natural Language Processing and Sentiment Analysis》:
張民報告
給聽眾極大的啟發。13日-14日,共進行了四場keynote演講、四場工業演講以及口頭會議報告。
蘇克毅Keynote演講
作為首場報告,來自臺北中央研究院信息科學研究院的蘇克毅教授做了關於《 On Integrating Domain Knowledge into DNN》,在演講中蘇克毅教授指出了DNN存在的局限性,並針對給定任務提出了增強DNN的方法。
Mark Liberman Keynote演講
賓夕法尼亞大學的Mark Liberman教授做了主題為《 Clinical Applications of Human Language Technology:Opportunities and Challenges》,介紹了利用NLP技術進行醫療數據挖掘的研究,以及一些非常具有啟發性的初步結果,並討論了未來研究的機遇和挑戰。
夏飛 keynote 演講
華盛頓大學的夏飛教授演講的主題為《NN is great, but NLP is not equal to NN》。在演講中,夏飛教授集中討論了神經網絡(NN)很少解決的兩個問題:數據標註和專家知識的重要性,並用臨床NLP為例進行了說明。她指出,僅靠神經網絡並不能解決NLP的所有問題,因此對於NLP領域的研究者來講,在順應神經網絡大潮的同時不應當放棄其他基礎研究方向。
宋大為 keynote 演講
來自北理工的宋大為教授的報告則更為新穎的角度,其主題為《A quantum cognitive perspective for informationaccess and retrieval》,即量子認知,借用量子力學的方法和語言來進行認知、信息獲取等的研究。值得一提的是,宋大為以及天津大學的張鵬也是目前國內少數幾位將量子力學與NLP結合起來研究的學者。
三、最佳論文獎
本屆最佳論文獎共 3 篇,其中英文最佳論文獎 2 篇,中文最佳論文獎 1 篇。
1、Group-constrained Embedding of Multi-fold Relations in Knowledge Bases
這篇文章是華中科大的工作。主要討論了知識庫的表示學習問題。
摘要:知識庫的表示學習旨在將實體和關係都嵌入到連續的向量空間中。大多數現有模型(例如TransE,DistMult,ANALOGY和ProjE)僅考慮知識庫中涉及的二進位關係,而將多重關係轉換為三元組並視為二元關係的實例,從而導致結構信息丟失。M-TransH是最近提出的用於多重關係直接建模的框架,但卻忽略了某些事實屬於同一關係的關係級信息。本文提出了一種組約束嵌入(Group-constrained Embedding)方法,該方法將實體節點和事實節點從實體空間嵌入到關係空間中,將與同一關係相關的嵌入事實節點限制為具有零約束、半徑約束或餘弦約束的組。這個方法提供了一個新模型,即Gm-TransH。我們在連結預測和實例分類任務上評估了我們的模型,實驗結果表明,Gm-TransH明顯優於以前的多重關係嵌入方法,並取得了出色的性能。
2、Fast and Accurate Bilingual Lexicon Induction via Matching Optimization
摘要:近期最優的進行雙語詞典歸納的方法一般是利用預訓練詞嵌入。然而,詞嵌入會給常見詞和稀有詞帶來噪音。尤其是在稀有詞的情況下,由於其嵌入在訓練數據中的出現率較低,因此其嵌入始終無法很好地學習。為了減輕上述問題,我們提出了BLIMO,這是一種簡單而有效的自動詞庫歸納方法。它並沒有引入詞嵌入,而是將詞典歸納問題轉換為最大加權匹配問題,這可以通過貪婪搜索的匹配優化來有效解決。經驗實驗進一步證明,我們提出的方法在兩個標準基準上大大優於最新的基準。
3、基於情感信息輔助的多模態情緒識別
摘要:近年來,多模態情感分析成為自然語言處理的熱點研究領域,挖掘多模態內容(如視頻和語音等)包含的情緒或情感信息具有十分重要的現實意義。基於多模態特徵的情緒分類和情感分類作為情感分析的兩個子任務,已有大量工作對兩者進行單獨研究,但是在多模態領域,還沒有相關研究利用情感信息幫助識別說話人的情緒。不同於純文本的情緒分析,本文面向多模態數據(文本和語音)進行情緒識別研究。為了同時考慮多模態數據特徵,我們提出一種新穎的聯合學習框架,將多模態情緒分類作為主任務,多模態情感分類作為輔助任務,通過情感信息來輔助提升情緒識別任務的性能。具體而言,通過私有網絡層對主任務中的文本和語音模態信息分別進行編碼,以學習單個模態內部的情緒獨立特徵表示。接著,通過輔助任務中的共享網絡層來獲取主任務的輔助情緒表示以及輔助任務的單模態完整情感表示。在得到主任務的文本和語音輔助情緒表示之後,分別與主任務中的單模態獨立特徵表示進行結合,得到主任務中單模態情緒信息的完整表示。最後通過自注意力機制捕捉每個任務上的多模態交互特徵,得到最終的多模態情緒表示和情感表示。實驗結果表明,我們的方法在多模態情感分析數據集上可以通過情感輔助信息大幅度提升情緒分類任務的性能,同時情感分類任務的性能也得到了一定的提升。
四、傑出貢獻獎、青年科學家獎
CCF NLPCC 傑出貢獻獎和青年科學家獎是NLPCC的特色之一,從2017年開始頒發。
CCF NLPCC 傑出貢獻獎是授予給對中國自然語言處理作出極大貢獻的個人。本屆傑出貢獻獎授予給了中國NLP領域的泰鬥人物東北大學姚天順教授。姚教授出生於1934年,是中國NLP領域的第一位博士生導師,從1980年在東北大學創建東北大學自然語言處理實驗室至今,培養了一大批知名學者,包括東北大學朱靖波教授、大連理工大學林鴻飛教授、中科院計算所程學旗研究員、李沐博士等,姚氏弟子遍布世界各地,可謂桃李滿園。
專委會主任周明博士向姚天順頒發獎牌和證書,朱靖波教授代領
(從左到右依次:周明、朱靖波、姚天順)
姚天順教授多年來秉持一個觀點,即「人的一生很短,一輩子做成一件事就很了不起」,因此從80年代直至2005年退休,20多年一直堅持只做機器翻譯。也正是由於他的這種精神,現在由朱靖波教授所帶領的東北大學自然語言處理實驗室已然成為國內外最強大的機器翻譯研究團隊之一,他們所開發的小牛翻譯能夠高質量完成140多種語言的翻譯任務。
周國棟教授向馮洋、段楠頒發獎章(左二,段楠;左三,周國棟;左四,馮洋)
青年科學家獎每屆兩人。本屆NLPCC 青年科學獎獲得者分別為中科院計算所馮洋研究員和微軟亞洲研究院段楠研究員。
馮洋發表獲獎感言
馮洋研究員是中科院計算所自然語言處理課題組負責人,是當前NLP領軍人物劉群教授的學生,在今年ACL上發表的《Bridgingthe Gap between Training and Inference for Neural Machine Translation》曾獲2019年ACL最佳論文獎。目前研究領域為系統融合和低資源語言翻譯。
段楠發表獲獎感言
段楠研究員目前是微軟亞洲研究院的首席研究經理(Principle Research Manager),是微軟亞洲研究院副院長、2019年ACL主席周明博士的學生。段楠研究員曾先後在ACL、EMNLP、NAACL、COLING等頂級會議上發表論文50多篇,其開發的基於知識的QA/NLU和基於視頻的QA/summarization曾獲得Bill Gates的重視,許多研究工作都曾應用在微軟的產品當中,例如小冰、Cortana等。目前研究領域為QA和自然語言理解。
五、換屆及來年舉辦地
由於CCF 中文信息技術專委會每四年一換屆,因此本年度也將成為該專委會的換屆年,同時專委會也將更名為「自然語言處理及中文計算專委會」。
微軟研究院常務副院長周明博士從2016年起擔任專委會主任以來,在專委會秘書長趙東巖等人的支持下,短短數年將NLPCC會議提升到了一個新的高度,在今年年初成功進入CCF列表C類會議,為NLPCC會議作出了巨大的貢獻。此外,在周明等人的牽頭下,CCF 中文信息技術專委會與中國中文信息學會從2016年起聯合舉辦了「語言與智能高峰論壇」,每年一次,已經成功舉辦了四屆,這也迅速成為當前國內 NLP 領域最前沿思想交流與碰撞的一個大舞臺。
上圖從左向右依次為:劉群、宗成慶、趙鐵軍、周明、周國棟、趙東巖、呂雅娟、徐睿峰、黃萱菁、唐傑
據雷鋒網了解,接棒周明和趙東巖,CCF 中文信息技術專委會下一屆專委會主任是蘇州大學周國棟教授,專委會秘書長是北京大學萬小軍教授。
周國棟教授在1989、1992、1997曾先後畢業於西安交通大學、上海交通大學和新加坡國立大學,隨後一直在新加坡工作至2006年。隨後在蘇州大學的邀請下擔任蘇州大學特聘教授,僅用短短幾年的時間便組建起了蘇州大學自然語言團隊。目前蘇州大學自然語言團隊在其帶領下已經成為國內NLP領域的一個重鎮。
萬小軍教授,是計算機漢字雷射照排技術創始人王選院士和北大王選計算機所前任所長肖建國教授的學生。從1996年入學北大至今二十多年時間一直都在北大讀書和工作。從2005年起,萬小軍教授便是國內能夠在IR和NLP領域頂級會議和期刊上持續發表論文的學者之一。目前,萬小軍教授是國際範圍內文本摘要領域最優秀的研究學者之一。萬小軍教授在2016年聯合今日頭條研發的寫稿機器人xiaomingbot曾轟動一時。
去年經過專委會無記名投票決定NLPCC 2020在鄭州舉辦,由鄭州大學承辦。此外,今年經過專委會投票,選擇 NLPCC 2021 在山東青島舉辦。歡迎大家參加NLPCC 2020,期待明年的胡辣湯。
【封面圖片來源:網站名馬蜂窩,所有者:無】