四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究

2021-01-12 澎湃新聞

機器之心

機器之心發布

機器之心編輯部

AAAI 2020 本周在美國紐約落幕。雖然很多人因疫情無法現場參與這一頂會,但窩在家裡的我們可以多讀論文。在此文章中,我們介紹了四篇AAAI 2020論文,便於讀者們了解微信在內容理解和建模方面的研究。

隨著社交媒體和移動信息流應用的發展,許多應用積累了海量多種類型的圖文視頻等多媒體內容。

對海量線上內容的理解和建模即具有實際應用價值,也有十足的研究潛力,因此也吸引產業界和學術界大量研究人員的關注。

據機器之心了解,在近期召開的 AAAI 2020 中,微信數據質量團隊共計入選 4 篇研究論文,包含文本分類、強化學習、遷移學習等領域,包含文本分類、強化學習、遷移學習等領域,其核心算法已經用在微信看一看,搜一搜等應用裡面。

本文對此四篇論文的核心內容進行了介紹。

1. Active Learning with Query Generation for Cost-Effective Text Classification

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-YanY.3784.pdf

長文本分類標註時,由於文章內容的豐富性,標註人員不得不閱讀整篇文章,才能決定文章的標註,導致長文本標註一直是一個耗時耗力的工作,特別是一些在需要大數據集的分類任務中,該問題尤為嚴重。傳統主動學習方法通過掃描所有未標註樣本,並選擇最佳樣本用於訓練,這些方法耗時並且效果一般。

本文提出了一種面向長文本分類任務的主動學習方法,使用生成的方法生成最具有信息量和多樣性的樣本,此外我們利用 sparse reconstruction 近似表示成一些概括性詞語再進行標註,大大提升了主動學習的效果,並且避免了掃描所有未標註樣本,更適用於大規模數據集分類任務。

不確定性是主動學習中有效的衡量方法,通過選擇距離分類邊界最小的樣本(即

),可以得到最大不確定性的樣本集合。然而單純使用不確定性,會導致生成的樣本陷入一個局部空間,很有可能導致信息冗餘,浪費標註人力。所以本文在不確定性的基礎上,增加了多樣性的衡量目標. 同時,為了避免模型總是選取到離群的異常樣本,並約束了樣本取值範圍 . 最終的目標為最大化不確定性、最大化多樣性、最小化取值範圍,得到優化目標如下:

此外,由於生成的樣本使用特徵空間表示,標註人員難以理解和標註,本文把生成的樣本利用 sparse reconstruction 近似表示成一些概括性詞語,使得標註人員能更快速便捷的進行標註,避免了閱讀整篇文章。

實驗表明,本文的方法能有效應用於面向長文本分類的主動學習問題,並且在多份公開數據集上都取得了優異的效果。

2. Weak Supervision for Fake News Detection via Reinforcement Learning

論文地址:https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdf

近年來信息流已經成為人們獲取新聞的主要渠道,為了獲取點擊率,很多小編都會特意編寫一些不實的新聞,很容易觸及成千上萬的用戶,造成惡劣影響,所以及時的檢測假新聞顯得極為重要。目前存在的問題是(1)假新聞樣本獲取成本大。(2)標註樣本容易過期,沒辦法及時跟進新出的假新聞事件。

為解決上述問題,微信搜索數據質量團隊根據看一看實際業務提出了一個新的假新聞識別框架 WeFEND,能夠利用用戶的舉報內容擴充高時效性的樣本識別假新聞,提高假新聞識別的效果。識別框架主要由三部分組成:(1)弱監督樣本標註器;(2)強化學習選擇器;(3)假新聞識別器。根據用戶舉報內容數據對未標註的數據進行弱監督標註,然後使用強化學習構建的選擇器從弱監督標註數據中篩選出能提高假新聞識別效果的高質量的樣本,最後通過文章的標題進行假新聞識別。

研究者在微信看一看的 feeds 流數據集上進行了大量實驗,評測的結果表明提出的模型 WeFEND 相比於多個之前的模型, 無論是有監督還是純粹的弱監督,以及多模態模型,使用基於強化學習的弱監督模型 WeFEND 超過了多個基線模型(指標: Accuracy, AUC-ROC, precision, recall and F1)。

3. Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-LiL.3955.pdf

跨領域情感分類是自然語言處理中一項具有挑戰的任務。挑戰點就在於不同領域的數據不是同分布的,在實際任務中,不同領域有各自的領域特有詞。領域通用詞通常不足以區分情感極性,而具備區分性的領域特有詞卻無法很好的跨領域遷移。如何通過學習領域不變的特徵來橋接源領域和目標領域,從而使得在源域上訓練的模型可以適配目標域成為關鍵。

之前已有一系列方法利用在兩個域中具有相似極性預測行為的樞軸特徵來實現遷移,但是這些樞軸特徵的實現仍然較笨重,無法使我們從豐富的語義和句法信息中學習解耦可遷移的表示。

為了同時學習樞軸特徵和表示,我們提出了一種新的基於可遷移樞紐特徵的 Transformer (TPT). TPT 模型由兩個網絡組成:一個樞軸選擇器,它可以從上下文中學習檢測可遷移的 n-gram 樞軸特徵;以及一個可遷移的 Transformer,它通過對樞軸詞和非樞軸詞之間的相關性進行建模來生成可遷移的表示特徵。通過端到端的反向傳播,樞軸選擇器和可遷移 Transformer 可以聯合同步優化。如下為 TPT 模型框架圖,左側為基於 pivot mask 策略的 Transformer 特徵表示器,右側為可遷移 pivot 選擇器。

我們在 20 個領域對上進行了跨領域情感分類任務的實驗,實驗結果表明我們的模型優於以前的工作。

為了驗證我們的模型能夠發現潛在可遷移的 pivot 特徵,我們對樞紐的不確定性和上下文做了可視化。圖中列出了一些示例評論,顏色的深淺表明 pivot 的不確定性,可以看到例如 but、great 等領域通用詞一般有更好的領域不確定性,而 movie,kitchen 等領域專有詞則相反。與傳統的基於互信息排序的方法相比,一些領域特有詞通過 MI 可能排名較高,但在 TPT 中卻會被淘汰。

4. Transfer Value Iteration Networks

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-ShenJ.7199.pdf

值迭代網絡 (Value Iteration Networks,VINs) 是深度強化學習中引入長期規劃 (Planning-based) 的模型,VINs 通過在 DQN 中嵌入規劃計算模塊,藉助值迭代算法的模擬探索出泛化能力高於 DQN 的策略表示。然而強化學習的訓練要求大量數據。當一個相似領域(1)數據不足;(2)動作空間不同;(3)特徵空間不同時,舊策略無法直接應用到新領域,並且新領域通過少量數據的訓練無法學習到足夠好的最優策略。

本文提出基於值迭代網絡的遷移算法:遷移值迭代網絡,(Transfer Value Iteration Networks, TVINs)。對於數據缺乏的新領域,TVIN 通過相似源領域的知識遷移,實現已有預訓練知識的利用,從而來提高目標領域最優策略的預測準確率。TVIN 的知識遷移方式可以克服單領域訓練依賴大規模數據的高計算複雜性和成本消耗等缺陷,實現模型效果增長。TVIN 算法主要提出了兩種知識遷移技巧:

1) 獎勵函數遷移 (Pre-trained reward function transferring):獎勵函數 fR 在 VIN 網絡中起了狀態特徵提取的作用。通過在源領域和目標領域的特徵空間之間加入編碼器(Auto-encoder)建立映射關係(圖中「Part I」所示),從而解決目標領域狀態空間不同的遷移問題。

2) 狀態轉移函數遷移 (Pre-trained transition function transferring):狀態轉移函數 fp 在 VIN 網絡中是實現值迭代模塊中值函數的迭代更新的作用。因此狀態轉移函數遷移主要是針對目標領域動作空間不同的遷移問題。從源領域到目標領域遷移相似動作對應的預訓練 fp 函數時,同時加入遷移權重 wt 表示遷移的程度,TVIN 自動學習對應動作的相似性(圖中「Part II」所示)。

通過 TVIN 的知識遷移方法,可實現在特徵空間和動作空間不同的目標領域,利用有限的數據集學習有效的最優策略。該情況下,相對於單領域的 VIN 訓練而言,TVIN 的知識遷移方式可以減少數據量需求,降低訓練成本,並且實現模型效果增長。

我們通過在 3 種不同的路徑規劃任務間的領域遷移來驗證我們模型的效果,結果證明我們提出的方法得到最佳路徑的概率以及到達終點的成功率都更高。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

原標題:《四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究》

閱讀原文

相關焦點

  • 前瞻研究和落地應用兼顧,ACL 2020百度11篇被收錄論文解讀
    前瞻研究和落地應用兼顧,ACL 2020百度11篇被收錄論文解讀 2020-04-21 17:47
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • 繼CVPR、AAAI大豐收後,百度又有11篇論文被ACL 2020錄用
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI 2020 提前看|三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • 文本+視覺,多篇 Visual/Video BERT 論文介紹
    目前的大多數方法都是學習一些低階表徵,而這篇論文中作者們提出了一個視覺和語意的聯合模型,在沒有額外顯式監督的條件下學習高階特徵。具體來說,作者們借鑑了語言建模中十分成功的 BERT 模型,在它的基礎上進行改進,從視頻數據的向量量化和現有的語音識別輸出結果上分別導出視覺 token 和語言學 token,然後在這些 token 的序列上學習雙向聯合分布。
  • AAAI 2019 四個傑出論文獎論文揭曉
    既然手握這麼多數據,這些平臺也就引起了機器學習領域的研究人員們的興趣,他們開發了許多新的算法,嘗試以提供自動化反饋的方式幫助未來的學生們更好地學習。不過,提供了最初的幾十萬小時的訓練數據的學生們怎麼辦呢?在大多數教學場景下(比如教室),想要為課後作業設計監督學習系統都會遇到歷史數據不足的問題。在這篇論文中,作者們提出了一種人參與其中的「提示採樣」方法,專門用來處理早期的「無樣本學習」問題。
  • AAAI 2020舉辦,百度NLP論文速遞
    立春剛過,人工智慧行業迎來2020年的第一個頂級學術大會。2月7日,AAAI 2020在美國紐約拉開了帷幕。本屆大會百度共有28篇論文被收錄,較AAAI 2019的15篇入選成績提升近一倍,本次入選論文涉及機器學習、自然語言處理、計算機視覺等多個領域。原計劃有多位百度重量級科學家、研究者將受邀赴會發表演講。
  • ACL 2020 復旦大學系列論文解讀開始了!
    繼上周AI科技評論聯合哈工大 SCIR 實驗室推出「ACL 2020 哈工大系列解讀」之後,我們再次隆重推出 ACL 2020 實驗室系列解讀:ACL 2020 復旦大學系列解讀。復旦大學作為全國頂尖高校,在自然語言處理領域也當之無愧位列國內頂尖高校之列。
  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    今年是騰訊 AI Lab 第 2 次參加 EMNLP,共有 16 篇文章入選,涵蓋語言理解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。此外,在今年的多個頂級學術會議中,騰訊 AI Lab 也入選多篇論文,位居國內企業前列,包括機器學習領域頂會 NIPS(20 篇)和 ICML(16 篇)、計算機視覺領域頂會 CVPR(21 篇)和 ECCV(19 篇),以及語音領域頂會 Interspeech(8 篇)等。
  • 被ACL 2020收錄11篇NLP論文?百度:小意思,見慣了
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 百度11篇AI論文被ACL 2020收錄 都寫了什麼?
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI 2020 開幕:百度28篇論文入選 涉及NLP、機器學習、視覺等領域
    立春剛過,人工智慧行業迎來2020年的第一個頂級學術大會,2月7日,AAAI 2020在美國紐約拉開了帷幕。本屆大會百度共有28篇論文被收錄,較AAAI 2019的15篇入選成績提升近一倍,本次入選論文涉及機器學習、自然語言處理、計算機視覺等多個領域,原計劃有多位百度重量級科學家、研究者將受邀赴會發表演講。
  • 騰訊優圖10篇論文入選人工智慧頂級會議AAAI
    人工智慧領域的國際頂級會議AAAI 2020將於2月7日-2月12日在美國紐約舉辦。近年來隨著人工智慧的興起,AAAI每年舉辦的學術會議也變得越來越火熱,每年都吸引了大量來自學術界、產業界的研究員、開發者投稿、參會。以AAAI2019為例,論文提交數量高達7745篇,創下當年AAAI歷史新高。
  • AAAI 2019 錄用列表論文公布,清華58篇
    【導讀】人工智慧領域頂尖學術會議 AAAI 2019,暨第33屆 AAAI 大會將於 1月 27日 - 2 月 1日在夏威夷舉行。
  • 11篇入圍論文,一次國際頂尖研討會,百度AI ACL 2020見真章
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI 2020 線上分享 | Bert穩嗎?解讀NLP對抗模型新進展
    今年,大會收到 8800 篇提交論文,評審了 7737 篇,接收 1591 篇,接收率 20.6%。作為人工智慧領域的 A 類頂級會議,AAAI 2020 本該火熱異常,但受疫情影響,大部分中國作者無法正常出席會議,不得不改為遠程做報告。為向讀者們分享更多的優質內容、促進學術交流,機器之心也不間斷的組織了多期 AAAI 2020 論文分享。
  • 百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • 京東數科16篇論文入選國際頂會AAAI 2021 包括社交推薦等研究領域
    【TechWeb】1月8日消息,近日,國際人工智慧領域頂級學術會議AAAI2021(第35屆AAAI)論文收錄結果出爐,其中,京東數科16篇論文入選,其研究方向包含了聯邦學習、對抗學習、深度學習、序列推薦、社交推薦、圖神經網絡、風險管理的反因果推斷,以及智能城市領域的時空AI等尖端技術領域。
  • AAAI 2020上的NLP有哪些研究風向?
    前幾日,在北大舉辦了NLP方向的 AAAI 2020論文預講會,共有 34 篇文章進行宣講。我們知道,AAAI 2020 共收到的有效論文投稿超過 8800 篇,其中 7737 篇論文進入評審環節,最終收錄數量為 1591 篇。
  • 計算機所彭宇新課題組的6篇論文被人工智慧領域頂級國際會議IJCAI...
    2018年4月17日,據人工智慧領域頂級國際會議The 27th International Joint Conference on Artificial Intelligence(IJCAI 2018)通知,北京大學計算機科學技術研究所彭宇新課題組的6篇論文被IJCAI 2018錄用為口頭報告論文(共投稿7篇),彭宇新教授是這6篇論文的通訊作者。