機器之心
機器之心發布
機器之心編輯部
AAAI 2020 本周在美國紐約落幕。雖然很多人因疫情無法現場參與這一頂會,但窩在家裡的我們可以多讀論文。在此文章中,我們介紹了四篇AAAI 2020論文,便於讀者們了解微信在內容理解和建模方面的研究。
隨著社交媒體和移動信息流應用的發展,許多應用積累了海量多種類型的圖文視頻等多媒體內容。
對海量線上內容的理解和建模即具有實際應用價值,也有十足的研究潛力,因此也吸引產業界和學術界大量研究人員的關注。
據機器之心了解,在近期召開的 AAAI 2020 中,微信數據質量團隊共計入選 4 篇研究論文,包含文本分類、強化學習、遷移學習等領域,包含文本分類、強化學習、遷移學習等領域,其核心算法已經用在微信看一看,搜一搜等應用裡面。
本文對此四篇論文的核心內容進行了介紹。
1. Active Learning with Query Generation for Cost-Effective Text Classification
論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-YanY.3784.pdf
長文本分類標註時,由於文章內容的豐富性,標註人員不得不閱讀整篇文章,才能決定文章的標註,導致長文本標註一直是一個耗時耗力的工作,特別是一些在需要大數據集的分類任務中,該問題尤為嚴重。傳統主動學習方法通過掃描所有未標註樣本,並選擇最佳樣本用於訓練,這些方法耗時並且效果一般。
本文提出了一種面向長文本分類任務的主動學習方法,使用生成的方法生成最具有信息量和多樣性的樣本,此外我們利用 sparse reconstruction 近似表示成一些概括性詞語再進行標註,大大提升了主動學習的效果,並且避免了掃描所有未標註樣本,更適用於大規模數據集分類任務。
不確定性是主動學習中有效的衡量方法,通過選擇距離分類邊界最小的樣本(即
),可以得到最大不確定性的樣本集合。然而單純使用不確定性,會導致生成的樣本陷入一個局部空間,很有可能導致信息冗餘,浪費標註人力。所以本文在不確定性的基礎上,增加了多樣性的衡量目標. 同時,為了避免模型總是選取到離群的異常樣本,並約束了樣本取值範圍 . 最終的目標為最大化不確定性、最大化多樣性、最小化取值範圍,得到優化目標如下:
此外,由於生成的樣本使用特徵空間表示,標註人員難以理解和標註,本文把生成的樣本利用 sparse reconstruction 近似表示成一些概括性詞語,使得標註人員能更快速便捷的進行標註,避免了閱讀整篇文章。
實驗表明,本文的方法能有效應用於面向長文本分類的主動學習問題,並且在多份公開數據集上都取得了優異的效果。
2. Weak Supervision for Fake News Detection via Reinforcement Learning
論文地址:https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdf
近年來信息流已經成為人們獲取新聞的主要渠道,為了獲取點擊率,很多小編都會特意編寫一些不實的新聞,很容易觸及成千上萬的用戶,造成惡劣影響,所以及時的檢測假新聞顯得極為重要。目前存在的問題是(1)假新聞樣本獲取成本大。(2)標註樣本容易過期,沒辦法及時跟進新出的假新聞事件。
為解決上述問題,微信搜索數據質量團隊根據看一看實際業務提出了一個新的假新聞識別框架 WeFEND,能夠利用用戶的舉報內容擴充高時效性的樣本識別假新聞,提高假新聞識別的效果。識別框架主要由三部分組成:(1)弱監督樣本標註器;(2)強化學習選擇器;(3)假新聞識別器。根據用戶舉報內容數據對未標註的數據進行弱監督標註,然後使用強化學習構建的選擇器從弱監督標註數據中篩選出能提高假新聞識別效果的高質量的樣本,最後通過文章的標題進行假新聞識別。
研究者在微信看一看的 feeds 流數據集上進行了大量實驗,評測的結果表明提出的模型 WeFEND 相比於多個之前的模型, 無論是有監督還是純粹的弱監督,以及多模態模型,使用基於強化學習的弱監督模型 WeFEND 超過了多個基線模型(指標: Accuracy, AUC-ROC, precision, recall and F1)。
3. Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification
論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-LiL.3955.pdf
跨領域情感分類是自然語言處理中一項具有挑戰的任務。挑戰點就在於不同領域的數據不是同分布的,在實際任務中,不同領域有各自的領域特有詞。領域通用詞通常不足以區分情感極性,而具備區分性的領域特有詞卻無法很好的跨領域遷移。如何通過學習領域不變的特徵來橋接源領域和目標領域,從而使得在源域上訓練的模型可以適配目標域成為關鍵。
之前已有一系列方法利用在兩個域中具有相似極性預測行為的樞軸特徵來實現遷移,但是這些樞軸特徵的實現仍然較笨重,無法使我們從豐富的語義和句法信息中學習解耦可遷移的表示。
為了同時學習樞軸特徵和表示,我們提出了一種新的基於可遷移樞紐特徵的 Transformer (TPT). TPT 模型由兩個網絡組成:一個樞軸選擇器,它可以從上下文中學習檢測可遷移的 n-gram 樞軸特徵;以及一個可遷移的 Transformer,它通過對樞軸詞和非樞軸詞之間的相關性進行建模來生成可遷移的表示特徵。通過端到端的反向傳播,樞軸選擇器和可遷移 Transformer 可以聯合同步優化。如下為 TPT 模型框架圖,左側為基於 pivot mask 策略的 Transformer 特徵表示器,右側為可遷移 pivot 選擇器。
我們在 20 個領域對上進行了跨領域情感分類任務的實驗,實驗結果表明我們的模型優於以前的工作。
為了驗證我們的模型能夠發現潛在可遷移的 pivot 特徵,我們對樞紐的不確定性和上下文做了可視化。圖中列出了一些示例評論,顏色的深淺表明 pivot 的不確定性,可以看到例如 but、great 等領域通用詞一般有更好的領域不確定性,而 movie,kitchen 等領域專有詞則相反。與傳統的基於互信息排序的方法相比,一些領域特有詞通過 MI 可能排名較高,但在 TPT 中卻會被淘汰。
4. Transfer Value Iteration Networks
論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-ShenJ.7199.pdf
值迭代網絡 (Value Iteration Networks,VINs) 是深度強化學習中引入長期規劃 (Planning-based) 的模型,VINs 通過在 DQN 中嵌入規劃計算模塊,藉助值迭代算法的模擬探索出泛化能力高於 DQN 的策略表示。然而強化學習的訓練要求大量數據。當一個相似領域(1)數據不足;(2)動作空間不同;(3)特徵空間不同時,舊策略無法直接應用到新領域,並且新領域通過少量數據的訓練無法學習到足夠好的最優策略。
本文提出基於值迭代網絡的遷移算法:遷移值迭代網絡,(Transfer Value Iteration Networks, TVINs)。對於數據缺乏的新領域,TVIN 通過相似源領域的知識遷移,實現已有預訓練知識的利用,從而來提高目標領域最優策略的預測準確率。TVIN 的知識遷移方式可以克服單領域訓練依賴大規模數據的高計算複雜性和成本消耗等缺陷,實現模型效果增長。TVIN 算法主要提出了兩種知識遷移技巧:
1) 獎勵函數遷移 (Pre-trained reward function transferring):獎勵函數 fR 在 VIN 網絡中起了狀態特徵提取的作用。通過在源領域和目標領域的特徵空間之間加入編碼器(Auto-encoder)建立映射關係(圖中「Part I」所示),從而解決目標領域狀態空間不同的遷移問題。
2) 狀態轉移函數遷移 (Pre-trained transition function transferring):狀態轉移函數 fp 在 VIN 網絡中是實現值迭代模塊中值函數的迭代更新的作用。因此狀態轉移函數遷移主要是針對目標領域動作空間不同的遷移問題。從源領域到目標領域遷移相似動作對應的預訓練 fp 函數時,同時加入遷移權重 wt 表示遷移的程度,TVIN 自動學習對應動作的相似性(圖中「Part II」所示)。
通過 TVIN 的知識遷移方法,可實現在特徵空間和動作空間不同的目標領域,利用有限的數據集學習有效的最優策略。該情況下,相對於單領域的 VIN 訓練而言,TVIN 的知識遷移方式可以減少數據量需求,降低訓練成本,並且實現模型效果增長。
我們通過在 3 種不同的路徑規劃任務間的領域遷移來驗證我們模型的效果,結果證明我們提出的方法得到最佳路徑的概率以及到達終點的成功率都更高。
本文為機器之心發布,轉載請聯繫本公眾號獲得授權。
✄------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報導:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com
原標題:《四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究》
閱讀原文