北大獲中國首個WWW大會最佳論文獎,提出ELSA跨語言情感分析模型

2020-12-17 機器之心Pro

WWW 2019(The Web Conference)已於5月13-17日在美國舊金山召開。會議閉幕式上,大會主席公布了兩篇最佳長論文和一篇最佳短論文。

其中來自北京大學信息科學技術學院計算機科學技術系、高可信軟體技術教育部重點實驗室劉譞哲副教授課題組的論文「Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification」獲得了今年WWW大會最佳長論文獎,這是WWW歷史上中國學術研究機構(含港澳臺)首次獲此榮譽。

WWW大會由全球資訊網發明人、2016年度圖靈獎獲得者Tim Berners-Lee爵士等人於1992年發起並創辦,是計算機與網際網路領域的頂級學術會議,也被列為《中國計算機學會推薦國際學術會議和期刊目錄》中的A類學術會議,錄用率常年維持在14%~18%。

今年,WWW 大會投稿總數為1247篇,錄取225篇,錄取率為18%。值得一提的是,今年也正值全球資訊網誕生30周年。

以下是大會官方公布的三篇獲獎論文信息:

最佳長論文1:Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification

作者:Zhenpeng Chen、Sheng Shen、Ziniu Hu、Xuan Lu、Qiaozhu Mei、Xuanzhe Liu(北京大學)

連結:https://arxiv.org/abs/1806.02557

獲獎理由:創造性地使用全球通用的emoji作為跨語言情感分類表徵學習的一部分,顯著優於之前的SOTA結果。

最佳長論文2:OUTGUARD: Detecting In-Browser Covert Cryptocurrency Mining in the Wild

作者:Amin Kharraz、Zane Ma、Paul Murley、Charles Lever、Joshua Mason、Andrew Miller、Nikita Borisov、Manos Antonakakis、Michael Bailey(伊利諾伊大學香檳分校、喬治亞理工學院)

連結:https://nikita.ca/papers/outguard-www19.pdf

獲獎理由:首個無需手動分析、有效防禦瀏覽器內cryptojacking系統的設計、實現和評估。

最佳短論文:ViTOR: Learning to Rank Webpages Based on Visual Features

作者:Bram van den Akker、Ilya Markov、Maarten de Rijke(阿姆斯特丹大學)

連結:https://arxiv.org/abs/1903.02939

獲獎理由:集成了ImageNet 預訓練CV模型和IR顯著模式(salience pattern),從而極大提升排序的準確率,特別是對於更早網頁位置而言。

北大最佳長論文解讀

圖註:本文第一作者為北京大學信息科學技術學院2018級博士生陳震鵬,通訊作者為劉譞哲副教授,論文作者還包括北京大學信息科學技術學院2014級本科生沈晟、鬍子牛,2016級博士生陸璇,以及密西根大學梅俏竹教授。

在動態、開放和多變網際網路環境下,軟體系統需要深入準確地感知和理解用戶情境(包括所處環境的狀態和用戶的行為),以更加智能地提供服務。作為用戶情境感知和理解中一個重要方面,情感分析得到了包括數據挖掘、系統軟體、人機互動等多領域研究者的廣泛關注,成為交叉研究熱點並取得一系列進展。現有情感分析工作主要基於英語文本開展。在其他語言上,研究較少、標註語料稀缺,現有方法效果較差。但是,75%的網際網路用戶為非英語用戶,大約一半的Web內容為非英語內容。考慮到上述學術研究上的不平衡問題,非英語用戶對Web貢獻很大,卻無法像英語用戶一樣享受到高質量的基於情感分析的Web服務。

針對這一現象,學術界提出了「跨語言情感分析」,將英語語料中學習到的知識遷移到那些缺乏標註語料的語言(稱為目標語言)上。最直接的跨語言情感分析方法就是使用機器翻譯技術來連接兩種語言。比如,將目標語言文本翻譯成英語,直接使用英語的情感分析工具來處理翻譯語料。近年來,隨著表徵學習的發展,研究者開始嘗試更複雜的方法,例如,藉助機器翻譯技術將兩種語言的表徵對齊,形成一個統一的表徵空間,並基於該表徵空間開展情感分析。

儘管上述方法聽起來可行,但是效果卻一直不盡人意。事實上,上述方法均未考慮到語言差異問題。具體來說,不同語言中的情感表達方式不同,機器翻譯只能保留那些語言之間共性的情感表達,不能保留語言特定的情感信息。例如,「怒っている」翻譯成英語是「angry」,兩者均蘊含負面情感,是英語與日語之間共性的表達;「湯水のように使う」在日語中形容浪費,是負面的表達,但是翻譯成英語後是「use it like hot water」,丟失了原本的情感。

因為機器翻譯只能保留兩種語言的共性,需要一個新的「橋梁」來連接兩種語言,同時保留兩種語言共性和個性的情感信息。作為情感信息的載體,該橋梁需要比人工標籤更易獲得,且在各語言中普遍存在。基於上述需求,本文使用emoji表情符號作為這一橋梁。一方面,emoji是情感表達的有效工具,可以充當人工標註的情感標籤的替代品;另一方面,emoji作為世界通用的普適性語言,可以充當連接兩種語言(即英語與目標語言)的橋梁。兩種語言之間共性的emoji使用模式可以和機器翻譯一起,縮小語言之間的差異;各語言特定的emoji使用模式可以緩解語言差異問題。

具體地,本文提出了ELSA(Emoji-powered representation learning for cross-Lingual Sentiment Analysis)模型。首先,從Twitter上收集兩種語言的語料,基於語料中的emoji使用情況學習兩語言各自的表徵模型。英語和目標語言各自的表徵模型中蘊含了各自特定的情感信息。接著,使用機器翻譯技術生成平行語料,抓住兩種語言之間共性的情感信息。

為了驗證ELSA的效果,本文選用了經典的亞馬遜評論數據集,該數據集中包含9個任務,即分析法語、德語、日語的關於書籍、DVD、音樂的評論文本中的情感。結果顯示,ELSA較已有的跨語言情感分析方法,效果上有顯著提升。為了驗證模型的泛化能力,本文還選用了Twitter數據集進行驗證,較已有方法,準確率提升十幾個百分點。

2016年開始,劉譞哲副教授課題組在研究移動網際網路系統與服務時發現,emoji正在成為一種新的「普適」語言,是用戶最為廣泛使用的交互方式(大多數輸入法都已內置emoji)。課題組認為,emoji不僅可以讓表達更加生動,而且可以作為一種新的「軟」傳感器(Soft Sensor)來感知和理解用戶的情境。特別地,隨著用戶數據的安全隱私問題日益得到關注,如歐盟《通用數據保護條例》(GDPR)等法律法規的推出,傳統方法可能因涉及用戶隱私數據而無法應用;而emoji可以在一定程度上避免涉及這些敏感數據,並在用戶畫像、情感理解等方面被驗證具有良好的效果。以emoji作為理解和分析用戶情境的切入點,課題組在過去三年形成了一系列研究成果,已陸續發表於WWW和UbiComp等國際頂級會議,為用戶情境分析理解並進行服務推薦開闢了全新的研究視角。

相關焦點

  • 頂會論文解讀|北大提出ELSA跨語言情感分析模型
    WWW大會由全球資訊網發明人、2016年度圖靈獎獲得者Tim Berners-Lee爵士等人於1992年發起並創辦,是計算機與網際網路領域的頂級學術會議
  • ACL 2020:微軟最佳論文,Bengio論文獲時間檢驗獎,大陸論文量第二
    此外,大會公布了論文提交數量最多的 25 個國家或地區,中國大陸以 1084 篇的提交量位列第一,其次是美國。從接收論文的數量看,排在前 5 位的國家或地區分別是:美國(305 篇),中國大陸(185 篇),英國(50 篇),德國(44 篇),日本(24 篇)。
  • 南開獲最佳論文獎,西安交大獲最佳學生論文獎
    第28屆ACM國際多媒體會議(ACM MM)最佳論文獎、最佳學生論文獎、最佳demo獎、 最佳開源軟體獎在內的所有多媒體領域大獎都已出爐。其中最佳論文的一作是來自南開大學Hongru Liang,最佳學生論文的一作是來自西安交大的Wenbo Zheng。
  • 西交出身,辛書冕獲CVPR 2019最佳論文,李飛飛團隊獲經典論文獎
    結果顯示,華人幾乎包攬了最佳論文、最佳學生論文和最具影響力論文獎,分別由來自CMU的辛書冕等人、加州大學聖巴巴拉分校的王鑫等人和李飛飛團隊等人摘得! 華人包攬三大獎項第一作者 此次 CVPR 獲獎論文中有三大獎項的第一作者均有華人在列,包括最佳論文、最佳學生論文和最具影響力論文獎,辛書冕、王鑫、李飛飛等眾多華人的名字出現在獲獎者名單中讓人欣喜又印象深刻。
  • 南開獲最佳論文獎,西安交大獲最佳學生論文獎
    第28屆ACM國際多媒體會議(ACM MM)最佳論文獎、最佳學生論文獎、最佳demo獎、 最佳開源軟體獎在內的所有多媒體領域大獎都已出爐。其中最佳論文的一作是來自南開大學Hongru Liang,最佳學生論文的一作是來自西安交大的Wenbo Zheng。
  • 北大圖靈班本科生吳克文獲STOC 2020最佳論文獎
    機器之心報導參與:澤南今天,北京大學前沿計算研究中心官方公眾號報導稱,在全球計算機理論頂會 STOC 2020 上,北大本科生吳克文有兩篇論文發表,其中一篇獲得了最佳論文獎。根據北京大學前沿計算研究中心官方公眾號的報導,6 月 25 日,ACM 計算理論年會 STOC 2020 上傳來一條好消息:北京大學信息科學技術學院 16 級圖靈班學生吳克文參與的論文《Improved bounds for the sunflower lemma》榮獲會議最佳論文獎。
  • NeurIPS2020獎項出爐:GPT-3等三項研究獲最佳論文獎,華人一作論文...
    而如果統計國家的話,美國研究者的 1178 篇論文遙遙領先,中國和英國排在其後。NeurIPS 2020 最熱門的三個投稿方向和以往相比沒有太大變化,仍是「算法」、「深度學習」和「應用」,不過後兩個方向熱度有所降低。值得注意的是,今年的 NeurIPS 大會引入了「機器學習的社會影響」方向,探討的內容包括公平與隱私。
  • 報導 | 北大圖靈班本科生吳克文獲STOC 2020最佳論文獎
    『運籌OR帷幄』轉載作者:機器之心機器之心報導參與:澤南今天,北京大學前沿計算研究中心官方公眾號報導稱,在全球計算機理論頂會 STOC 2020 上,北大本科生吳克文有兩篇論文發表,其中一篇獲得了最佳論文獎。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    近日,KDD 2020公布了最佳論文獎、最佳學生論文獎等多個獎項。其中由谷歌研究院的研究者Walid Krichene和Steffen Rendle獲得最佳論文獎,杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得本屆會議的最佳學生論文獎。
  • 中國本科生獲STOC最佳論文獎!北大圖靈班,正在頻頻交出答卷
    最新消息,一位江蘇常州的小哥哥一口氣中了2篇論文,還拿下了最佳論文獎。而且他還是名本科生,首位拿下STOC最佳論文獎的中國本科生。沒錯,就是那個理論計算機領域頂級會議,難度和含金量都穩居第一梯隊的STOC。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。
  • NeurIPS 2020 獎項出爐:GPT-3等三項研究獲最佳論文獎
    目前,NeurIPS 2020 公布了最佳論文獎和時間檢驗獎。OpenAI 等提出的語言模型GPT-3、米蘭理工大學和卡內基梅隆大學提出的 no-regret 學習動態研究,和加州大學伯克利分校關於數據總結的論文共享本屆會議的最佳論文獎項。獲得時間檢驗獎的論文則是誕生於 2011 年的研究《HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent》。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎,清華入選論文實力霸榜
    近日,KDD 2020公布了最佳論文獎、最佳學生論文獎等多個獎項。 其中由谷歌研究院的研究者Walid Krichene和Steffen Rendle獲得最佳論文獎,杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍、楊建磊獲得本屆會議的最佳學生論文獎。 此外,湯繼良、盛勝利、唐傑等華人學者在本屆 SIGKDD 大會上也獲得了多項大獎。
  • 李飛飛高徒與其學生共獲最佳論文獎
    在會議開幕式,ECCV 組委會宣布了會議論文提交統計和最佳論文。普林斯頓大學的兩位研究人員為開發一種新的光流端到端可訓練模型而獲得最佳論文獎。近日,ECCV 2020 五項大獎均已出爐,分別是最佳論文獎、最佳論文提名獎、Koenderink 獎、Mark Everingham 獎、Demo 獎。
  • 華人斬獲最佳Demo論文,Bengio獲時間檢驗獎丨ACL2020
    從今年投稿數量上來看,中美依舊領跑NLP領域,其中中國的論文數量還要更多一些。△ 今年論文投稿數量這次的最佳論文獎被微軟一舉奪下,從論文內容上來看,的確值得仔細研讀。最佳論文突破NLP傳統測試方法這屆ACL的最佳論文是《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》。這篇論文提出了一種全新的NLP模型測試方法CheckList。
  • CIKM 2020最佳論文出爐!NUS和RMIT同獲最佳長論文獎
    作者 | 陳大鑫  10月19日-10月23日,第29屆國際計算機學會信息與知識管理大會(CIKM 2020)在線上召開,官網:https://www.cikm2020.org/ 。  以下介紹這兩篇最佳長論文。
  • 極鏈科技最新研究成果獲IEEE多媒體國際會議最佳論文獎
    近日,在2019年度IEEE International Conference on Multimedia and Expo(ICME)國際會議上傳來喜訊,由極鏈科技AI研究院與復旦大學、華為諾亞方舟實驗室聯合完成的論文獲大會最佳論文獎。
  • 31位學者聯手,GPT-3原作獲NeurIPS 2020最佳論文獎!
    【新智元導讀】NeurIPS 2020最佳論文公布!Open AI 的 GPT-3論文與米蘭理工大學、卡內基梅隆大學和加州大學伯克利分享 NeurIPS 2020年度最佳論文獎。大會還公布了「時間檢驗獎」,一篇10年前的華人一作論文摘得大獎。剛剛,NeurIPS 2020在官網公布了2020年度最佳論文獎和時間檢驗獎。
  • GPT-3獲NeurIPS 2020最佳論文獎,蘋果華人學者獲經典論文獎
    今天早晨,大會評委會公布了獲得最高榮譽的論文名單:包括GPT-3在內的三篇獲得最佳論文獎,一篇2011年論文獲得時間檢驗獎。而去年新增的傑出新方向論文獎並未頒出。論文地址:https://arxiv.org/abs/2005.14165獲獎理由:語言模型是解決自然語言處理中一系列問題的現代技術支柱。
  • 清華計算機系教師在國際會議DATE上獲最佳論文獎
    清華計算機系教師在國際會議DATE上獲最佳論文獎清華新聞網3月18日電 3月17日,清華計算機系喻文健副教授為第一作者的論文《在基於懸浮隨機行走方法的電容提取中利用宏模型》(Utilizing Macromodels in Floating Random