【ACL2018】騰訊AI Lab入選5篇論文解讀:神經機器翻譯、情感分類等

2022-01-09 新智元


  新智元推薦  

來源:騰訊AI Lab

編輯:Grace

【新智元導讀】第 56 屆計算語言學協會年會ACL 2018 將於當地時間7 月15-20 日在澳大利亞墨爾本舉辦。騰訊AI Lab 今年共有 5 篇論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。

 

第 56 屆計算語言學協會年會ACL 2018 將於當地時間7月15-20日在澳大利亞墨爾本舉辦。騰訊AI Lab 今年共有 5 篇論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。下面將介紹這 5 篇論文的研究內容。

1、通往魯棒的神經網絡機器翻譯指路(Towards Robust Neural MachineTranslation)

 

論文地址:https://arxiv.org/abs/1805.06130

 

在神經機器翻譯(NMT)中,由於引入了循環神經網絡(RNN)和注意機制,上下文中的每個詞都可能影響模型的全局輸出結果,這有些類似於「蝴蝶效應」。也就是說,NMT對輸入中的微小擾動極其敏感,比如將輸入中某個詞替換成其近義詞就可能導致輸出結果發生極大變化,甚至修改翻譯結果的極性。針對這一問題,研究者在本論文中提出使用對抗性穩定訓練來同時增強神經機器翻譯的編碼器與解碼器的魯棒性。

  

上圖給出了該方法的架構示意,其工作過程為:給定一個輸入句子x,首先生成與其對應的擾動輸入x',接著採用對抗訓練鼓勵編碼器對於x 和x' 生成相似的中間表示,同時要求解碼器端輸出相同的目標句子y。這樣能使得輸入中的微小擾動不會導致目標輸出產生較大差異。

 

研究者在論文中提出了兩種構造擾動輸入的方法。第一種是在特徵級別(詞向量)中加入高斯噪聲;第二種是在詞級別中用近義詞來替換原詞。

 

研究表明,該框架可以擴展應用於各種不同的噪聲擾動並且不依賴於特定的 NMT 架構。實驗結果表明該方法能夠同時增強神經機器翻譯模型的魯棒性和翻譯質量,下表給出了在NIST 漢語-英語翻譯任務上的大小寫不敏感 BLEU 分數。

 

 

可以看到,研究者使用極大似然估計(MLE)訓練的 NMT 系統優於其它最好模型大約3 BLEU。

2、hyperdoc2vec:超文本文檔的分布式表示(hyperdoc2vec:Distributed Representations of Hypertext Documents)

 

論文地址:https://arxiv.org/abs/1805.03793

 

現實世界中很多文檔都具有超連結的結構。例如,維基頁面(普通網頁)之間通過URL互相指向,學術論文之間通過引用互相指向。超文檔的嵌入(embedding)可以輔助相關對象(如實體、論文)的分類、推薦、檢索等問題。然而,針對普通文檔的傳統嵌入方法往往偏重建模文本/連結網絡中的一個方面,若簡單運用於超文檔,會造成信息丟失。

 

本論文提出了超文檔嵌入模型在保留必要信息方面應滿足的四個標準並且表明已有的方法都無法同時滿足這些標準。這些標準分別為:

 

內容感知度(content awareness):超文檔的內容自然在描述該超文檔方面起主要作用

上下文感知度(context awareness):超連結上下文通常能提供目標文檔的總結歸納

新信息友好度(newcomer friendliness):對於沒有被其它任何文檔索引的文檔,需要採用適當的方式得到它們的嵌入

語境意圖感知度(context intent awareness):超連結周圍的「evaluate... by」這樣的詞通常指示了源超文檔使用該引用的原因

 

為此,研究者提出了一種新的嵌入模型hyperdoc2vec。不同於大多數已有方法,hyperdoc2vec會為每個超文檔學習兩個向量,以表徵其引用其它文檔的情況和被引用的情況。因此,hyperdoc2vec可以直接建模超連結或引用情況,而不損失其中包含的信息。下面給出了hyperdoc2vec 模型示意圖:

 

 

為了評估所學習到的嵌入,研究者在三個論文領域數據集以及論文分類和引用推薦兩個任務上系統地比較了hyperdoc2vec 與其它方法。模型分析和實驗結果都驗證了hyperdoc2vec 在以上四個標準下的優越性。下表展示了在DBLP 上的 F1 分數結果:

 

 

可以看到,添加了 DeepWalk 信息後基本都能得到更優的結果;而不管是否使用了 DeepWalk,hyperdoc2vec的結果都是最優的。

3、TNet:面向評論目標的情感分類架構(TransformationNetworks for Target-Oriented Sentiment Classification)

 

論文地址:https://arxiv.org/abs/1805.01086

開源項目:https://github.com/lixin4ever/TNet

 

面向評論目標(opinion target)的情感分類任務是為了檢測用戶對於給定評論實體的情感傾向性。直觀上來說,帶注意機制的循環神經網絡(RNN)很適合處理這類任務,以往的工作也表明基於這類模型的工作確實取得了很好的效果。

 

研究者在這篇論文中嘗試了一種新思路,即用卷積神經網絡(CNN)替代基於注意機制的RNN去提取最重要的分類特徵。

由於CNN 很難捕捉目標實體信息,所以研究者設計了一個特徵變換組件來將實體信息引入到單詞的語義表示當中。但這個特徵變換過程可能會使上下文信息丟失。針對這一問題,研究者又提出了一種「上下文保留」機制,可將帶有上下文信息的特徵和變換之後的特徵結合起來。

 

綜合起來,研究者提出了一種名為目標特定的變換網絡(TNet)的新架構,如下左圖所示。其底部是一個BiLSTM,其可將輸入變換成有上下文的詞表示(即 BiLSTM 的隱藏狀態)。其中部是TNet 的核心部分,由 L 個上下文保留變換(CPT)層構成。最上面的部分是一個可感知位置的卷積層,其首先會編碼詞和目標之間的位置相關性,然後提取信息特徵以便分類。

 

右圖則展示了一個 CPT 模塊的細節,其中有一個全新設計的 TST 組件,可將目標信息整合進詞表示中。此外,其中還包含一個上下文保留機制

研究者在三個標準數據集上評估了新提出的框架,結果表明新方法的準確率和F1值全面優於已有方法;下表給出了詳細的實驗結果。

 

本研究的相關代碼已經開源。

4、兼具領域適應和情感感知能力的詞嵌入學習(Learning Domain-Sensitive andSentiment-Aware Word Embeddings)

 

論文地址:https://arxiv.org/abs/1805.03801

 

詞嵌入是一種有效的詞表示方法,已被廣泛用於情感分類任務中。一些現有的詞嵌入方法能夠捕捉情感信息,但是對於來自不同領域的評論,它們不能產生領域適應的詞向量。另一方面,一些現有的方法可以考慮多領域的詞向量自適應,但是它們不能區分具有相似上下文但是情感極性相反的詞。

 

在這篇論文中,研究者提出了一種學習領域適應和情感感知的詞嵌入(DSE)的新方法,可同時捕獲詞的情感語義和領域信息。本方法可以自動確定和生成領域無關的詞向量和領域相關的詞向量。模型可以區分領域無關的詞和領域相關的詞,從而使我們可以利用來自於多個領域的共同情感詞的信息,並且同時捕獲來自不同領域的領域相關詞的不同語義

 

在 DSE 模型中,研究者為詞彙表中的每個詞都設計了一個用於描述該詞是領域無關詞的概率的分布。這個概率分布的推理是根據所觀察的情感和上下文進行的。具體而言,其推理算法結合了期望最大化(EM)方法和一種負採樣方案,其過程如下算法1 所示。

 

其中,E 步驟使用了貝葉斯規則來評估每個詞的 zw(一個描述領域相關性的隱變量)的後驗分布以及推導目標函數。而在M 步驟中則會使用梯度下降法最大化該目標函數並更新相應的嵌入。

 

研究者在一個亞馬遜產品評論數據集上進行了實驗,下表給出了評論情感分類的實驗結果:

 

 

實驗結果表明,本工作提供了一個有效的學習兼具領域適應和情感感知能力的詞嵌入的方法,並提高了在句子層面和詞彙層面的情感分類任務的性能。

5、自動評論文章:任務和數據集(Automatic Article Commenting: theTask and Dataset)

 

論文地址:https://arxiv.org/abs/1805.03668

公開數據集:https://ai.tencent.com/upload/PapersUploads/article_commenting.tgz

在線文章的評論可以提供延伸的觀點以及提升用戶的參與度。因而,自動產生評論正成為在線論壇和智能聊天機器人中的一個很有價值的功能。

 

本論文提出了一個新的自動評論文章任務,並為這個任務構建了一個大規模的中文數據集:它包含數百萬條真實評論和一個人工標註的、能夠表達評論質量的子集。下圖給出了這個數據集的統計信息和分類情況:

 

 

這個數據集是從騰訊新聞(news.qq.com)收集的。其中每個實例都有一個標題以及文章的文本內容,還有一組讀者評論及輔助信息(sideinformation),該輔助信息中包含編輯為該文章劃分的類別以及每個評論獲得的用戶點讚數。

 

研究者爬取了 2017 年 4 月到 8 月的新聞文章及相關內容,然後使用Python 庫Jieba 對所有文本進行了token 化,並過濾掉了文本少於 30 詞的短文章和評論數少於 20 的文章。所得到的語料又被分成了訓練集、開發集和測試集。該數據集的詞彙庫大小為1858452。文章標題和內容的平均長度分別為 15 和 554 中文詞(不是漢字)。平均評論長度為17 詞。輔助信息方面,每篇文章都關聯了44 個類別中的一個。每條評論的點讚數量平均在 3.4-5.9 之間,儘管這個數字看起來很小,但該分布表現出了長尾模式——受歡迎的評論的點讚數可達成千上萬。

 

該數據集已開放下載。

 

通過引入評論質量的人工偏好,本論文還提出了多個自動評價度量(W-METEOR、W-BLEU、W-ROUGE、W-CIDEr),它們拓展了現有主流的基於參考答案的度量方法而且它們獲得了與人類評價更好的相關度。研究者也演示了該數據集和相關評價度量在檢索和生成模型上的應用。


【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3  入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • ACL 2018 | 騰訊AI Lab五篇入選論文
    騰訊 AI Lab 今年共有 5 篇論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。下面將介紹這 5 篇論文的研究內容。這一事件在雷鋒網(公眾號:雷鋒網)旗下學術頻道AI科技評論資料庫產品「AI 影響因子」中有相應加分。
  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    今年是騰訊 AI Lab 第 2 次參加 EMNLP,共有 16 篇文章入選,涵蓋語言理解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。此外,在今年的多個頂級學術會議中,騰訊 AI Lab 也入選多篇論文,位居國內企業前列,包括機器學習領域頂會 NIPS(20 篇)和 ICML(16 篇)、計算機視覺領域頂會 CVPR(21 篇)和 ECCV(19 篇),以及語音領域頂會 Interspeech(8 篇)等。
  • ACL 2018 國內企業錄用論文一覽
    百度2018 年,百度有多篇論文被 ACL 2018 大會錄用。更多論文解讀可參考《百度四篇論文被 ACL 2018 錄用,閱讀理解新進展一覽》此外,針對多文檔閱讀理解任務,百度自然語言處理團隊發布了面向真實搜索應用的最大中文開放領域閱讀理解數據集 DuReader(包含 30 萬問題、150 萬文檔和 72 萬答案),並基於此數據集舉辦了 2018 中文閱讀理解技術評測(http:
  • 騰訊AI Lab 8篇論文入選,從0到1解讀語音交互能力
    AI Lab共有8篇論文入選,居國內企業前列。比如今年 4 月舉辦的 IEEE 聲學、語音與信號處理國際會議(ICASSP 2018),是由 IEEE 主辦、全球最大、最全面的信號處理及其應用方面的頂級學術會議,騰訊 AI Lab 也入選論文 4 篇,介紹了其在多說話人語音識別、神經網絡語言模型建模和說話風格合成自適應方面的研究進展。
  • IJCAI 2018 | 騰訊知文團隊3篇入選論文解讀
    在近日揭曉2018年收錄論文名單中,騰訊知文團隊有3篇一作長文被錄取,我們將對文章進行簡要解讀,歡迎交流討論。騰訊知文團隊介紹    騰訊知文是SNG數據中心的NLP團隊,目前專注於問答與對話領域,服務與支持的產品包括騰訊雲小微機器人、騰訊雲金融智能客服、騰訊雲內容理解等。
  • 圍觀騰訊 AI Lab 的4篇 ICML 入選論文 | ICML 2017
    作為國內著名的人工智慧研究機構,騰訊 AI Lab 也有4篇論文入選了今年的 ICML。雷鋒網(公眾號:雷鋒網) AI 科技評論對這4篇論文簡單介紹如下。Hoi(新加坡大學信息系統學院),張潼(騰訊 AI Lab)論文簡介:條件梯度算法由於其應對大規模機器學習問題時高效的特點,近幾年來重新成為了研究的熱門話題。然而,目前為止的研究都沒有考慮過在線分布式環境下的算法表現,這種情況下本地的計算量就很輕微。在
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    騰訊 AI Lab 第三次參加 NIPS,共有 20 篇論文入選,其中 2 篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,而去年他們入選論文8篇,含1篇口頭報告(Oral)。
  • NIPS 2018 | 騰訊 AI Lab 入選 20 篇論文,含 2 篇 Spotlight
    騰訊 AI Lab 第三次參加 NIPS,共有 20 篇論文入選,其中 2 篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,去年我們入選論文 8 篇,含 1 篇口頭報告(Oral)。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    騰訊AI Lab第三次參加NIPS,共有20篇論文入選,其中2篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,去年我們入選論文8篇,含1篇口頭報告(Oral)。
  • INTERSPEECH 2020 | 騰訊AI Lab解讀語音識別與合成方向及入選論文
    感謝閱讀騰訊AI Lab微信號第107篇文章。本文將分組介紹語音領域頂級會議 INTERSPEECH 2020 中騰訊 AI Lab 的重點研究方向和入選論文。語音技術頂級會議 INTERSPEECH 今年將於 10 月 25 - 29 日在線上舉行。根據主辦方發布的數據,INTERSPEECH 2020共接收到有效論文投稿 2140 篇,其中 1022 篇被接收。
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    ,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務學習等幾大重點研究方向,下面將分組介紹論文。往年參會入選論文可見公眾號歷史文章。註:本文分組方式並不嚴格,部分論文同時分屬多個主題。
  • AAAI 2018,騰訊AI Lab 11篇錄用論文全解讀
    在本次大會上,騰訊 AI Lab 有 11 篇論文被錄用,論文錄用名單及摘要解讀如下:1  學習用於圖像描述的引導解碼(Learning to Guide Decoding for Image Captioning)圖像描述領域近來取得了很多進展,而且已經有一種編碼器-解碼器框架在這一任務上得到了出色的表現。
  • AI影響因子5月回顧:國內企業研究院89篇頂會論文被錄用,商湯騰訊...
    其中阿里 AI Lab 有 10 篇論文被錄用,分別有 1 篇 oral,6 篇 poster,3 篇 Spotlight。而達摩院機器智能技術實驗室也有 2 篇 poster 被錄用。在今年的 ICLR 上,阿里巴巴搜索事業部也有一篇論文被錄用。
  • 騰訊AI Lab 2020 年度回顧
    基於該移動機器人平臺的兩篇研究論文被機器人行業國際頂會 IROS 2020 接受為 Oral 展示論文。該項目可以視作騰訊在機器人的機械設計和整機系統設計與搭建方向能力上的一大裡程碑。
  • NIPS2018 | 騰訊AI Lab入選20篇論文,含2篇Spotlight
    基於適應性採樣的快速圖表示學習Adaptive Sampling Towards Fast Graph Representation Learning論文地址:https://arxiv.org/abs/1809.05343這項研究由騰訊 AI Lab 獨立完成,提出了一種適用於大規模社交網絡的節點分類方法
  • NIPS 2017 騰訊AI Lab 八篇論文入選,含1篇Oral
    被譽為神經計算和機器學習領域兩大頂級會議之一的 NIPS(另一個為 ICML)近日揭曉收錄論文名單,騰訊 AI Lab 共有八篇論文入選,位居國內企業前列,其中一篇被選做口頭報告(Oral),該類論文僅佔總錄取數的 1.2%(40/3248),我們將在下文解析。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • 【AAAI 2018】騰訊 AI Lab 11篇論文解讀:圖像描述、NMT 模型、圖卷積神經網絡、DNN優化等
    在AAAI 2018,騰訊 AI Lab 有 11 篇論文被錄用,涉及圖像描述、更低計算成本的預測表現、NMT 模型中的特定翻譯問題、自適應圖卷積神經網絡、DNN面對對抗樣本的優化問題等,本文帶來全部11篇論文的摘要解讀。1.
  • 騰訊AI Lab全解讀:3大核心領導人物
    張潼博士作為騰訊AI Lab第一負責人,將帶領50餘位AI科學家及200多位AI應用工程師團隊,聚焦於四大基礎研究領域看,包括計算機視覺、語音識別、自然語言處理和機器學習,並根據騰訊業務提出遊戲、內容、社交及工具平臺型AI四個應用方向。下面,我們就從核心領導層、代表論文和研發領域三個方面,全面解讀騰訊AI Lab。
  • ACL2019最佳論文獎出爐,華人包攬眾多獎項
    ;論文所提出的解決方案是:判斷依據在「基於參考文本中的詞」和「解碼器自己的輸出中預選擇詞」兩種之間切換這個方法適用於當前的teacher-forcing訓練範式,並改進了規劃抽樣;論文的實驗做的非常完善,結果令人信服,並可能影響機器翻譯未來的工作;該方法也適用於其他seq2seq任務。