四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究

2020-12-14 澎湃新聞

機器之心

機器之心發布

機器之心編輯部

AAAI 2020 本周在美國紐約落幕。雖然很多人因疫情無法現場參與這一頂會,但窩在家裡的我們可以多讀論文。在此文章中,我們介紹了四篇AAAI 2020論文,便於讀者們了解微信在內容理解和建模方面的研究。

隨著社交媒體和移動信息流應用的發展,許多應用積累了海量多種類型的圖文視頻等多媒體內容。

對海量線上內容的理解和建模即具有實際應用價值,也有十足的研究潛力,因此也吸引產業界和學術界大量研究人員的關注。

據機器之心了解,在近期召開的 AAAI 2020 中,微信數據質量團隊共計入選 4 篇研究論文,包含文本分類、強化學習、遷移學習等領域,包含文本分類、強化學習、遷移學習等領域,其核心算法已經用在微信看一看,搜一搜等應用裡面。

本文對此四篇論文的核心內容進行了介紹。

1. Active Learning with Query Generation for Cost-Effective Text Classification

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-YanY.3784.pdf

長文本分類標註時,由於文章內容的豐富性,標註人員不得不閱讀整篇文章,才能決定文章的標註,導致長文本標註一直是一個耗時耗力的工作,特別是一些在需要大數據集的分類任務中,該問題尤為嚴重。傳統主動學習方法通過掃描所有未標註樣本,並選擇最佳樣本用於訓練,這些方法耗時並且效果一般。

本文提出了一種面向長文本分類任務的主動學習方法,使用生成的方法生成最具有信息量和多樣性的樣本,此外我們利用 sparse reconstruction 近似表示成一些概括性詞語再進行標註,大大提升了主動學習的效果,並且避免了掃描所有未標註樣本,更適用於大規模數據集分類任務。

不確定性是主動學習中有效的衡量方法,通過選擇距離分類邊界最小的樣本(即

),可以得到最大不確定性的樣本集合。然而單純使用不確定性,會導致生成的樣本陷入一個局部空間,很有可能導致信息冗餘,浪費標註人力。所以本文在不確定性的基礎上,增加了多樣性的衡量目標. 同時,為了避免模型總是選取到離群的異常樣本,並約束了樣本取值範圍 . 最終的目標為最大化不確定性、最大化多樣性、最小化取值範圍,得到優化目標如下:

此外,由於生成的樣本使用特徵空間表示,標註人員難以理解和標註,本文把生成的樣本利用 sparse reconstruction 近似表示成一些概括性詞語,使得標註人員能更快速便捷的進行標註,避免了閱讀整篇文章。

實驗表明,本文的方法能有效應用於面向長文本分類的主動學習問題,並且在多份公開數據集上都取得了優異的效果。

2. Weak Supervision for Fake News Detection via Reinforcement Learning

論文地址:https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdf

近年來信息流已經成為人們獲取新聞的主要渠道,為了獲取點擊率,很多小編都會特意編寫一些不實的新聞,很容易觸及成千上萬的用戶,造成惡劣影響,所以及時的檢測假新聞顯得極為重要。目前存在的問題是(1)假新聞樣本獲取成本大。(2)標註樣本容易過期,沒辦法及時跟進新出的假新聞事件。

為解決上述問題,微信搜索數據質量團隊根據看一看實際業務提出了一個新的假新聞識別框架 WeFEND,能夠利用用戶的舉報內容擴充高時效性的樣本識別假新聞,提高假新聞識別的效果。識別框架主要由三部分組成:(1)弱監督樣本標註器;(2)強化學習選擇器;(3)假新聞識別器。根據用戶舉報內容數據對未標註的數據進行弱監督標註,然後使用強化學習構建的選擇器從弱監督標註數據中篩選出能提高假新聞識別效果的高質量的樣本,最後通過文章的標題進行假新聞識別。

研究者在微信看一看的 feeds 流數據集上進行了大量實驗,評測的結果表明提出的模型 WeFEND 相比於多個之前的模型, 無論是有監督還是純粹的弱監督,以及多模態模型,使用基於強化學習的弱監督模型 WeFEND 超過了多個基線模型(指標: Accuracy, AUC-ROC, precision, recall and F1)。

3. Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-LiL.3955.pdf

跨領域情感分類是自然語言處理中一項具有挑戰的任務。挑戰點就在於不同領域的數據不是同分布的,在實際任務中,不同領域有各自的領域特有詞。領域通用詞通常不足以區分情感極性,而具備區分性的領域特有詞卻無法很好的跨領域遷移。如何通過學習領域不變的特徵來橋接源領域和目標領域,從而使得在源域上訓練的模型可以適配目標域成為關鍵。

之前已有一系列方法利用在兩個域中具有相似極性預測行為的樞軸特徵來實現遷移,但是這些樞軸特徵的實現仍然較笨重,無法使我們從豐富的語義和句法信息中學習解耦可遷移的表示。

為了同時學習樞軸特徵和表示,我們提出了一種新的基於可遷移樞紐特徵的 Transformer (TPT). TPT 模型由兩個網絡組成:一個樞軸選擇器,它可以從上下文中學習檢測可遷移的 n-gram 樞軸特徵;以及一個可遷移的 Transformer,它通過對樞軸詞和非樞軸詞之間的相關性進行建模來生成可遷移的表示特徵。通過端到端的反向傳播,樞軸選擇器和可遷移 Transformer 可以聯合同步優化。如下為 TPT 模型框架圖,左側為基於 pivot mask 策略的 Transformer 特徵表示器,右側為可遷移 pivot 選擇器。

我們在 20 個領域對上進行了跨領域情感分類任務的實驗,實驗結果表明我們的模型優於以前的工作。

為了驗證我們的模型能夠發現潛在可遷移的 pivot 特徵,我們對樞紐的不確定性和上下文做了可視化。圖中列出了一些示例評論,顏色的深淺表明 pivot 的不確定性,可以看到例如 but、great 等領域通用詞一般有更好的領域不確定性,而 movie,kitchen 等領域專有詞則相反。與傳統的基於互信息排序的方法相比,一些領域特有詞通過 MI 可能排名較高,但在 TPT 中卻會被淘汰。

4. Transfer Value Iteration Networks

論文地址:https://aaai.org/Papers/AAAI/2020GB/AAAI-ShenJ.7199.pdf

值迭代網絡 (Value Iteration Networks,VINs) 是深度強化學習中引入長期規劃 (Planning-based) 的模型,VINs 通過在 DQN 中嵌入規劃計算模塊,藉助值迭代算法的模擬探索出泛化能力高於 DQN 的策略表示。然而強化學習的訓練要求大量數據。當一個相似領域(1)數據不足;(2)動作空間不同;(3)特徵空間不同時,舊策略無法直接應用到新領域,並且新領域通過少量數據的訓練無法學習到足夠好的最優策略。

本文提出基於值迭代網絡的遷移算法:遷移值迭代網絡,(Transfer Value Iteration Networks, TVINs)。對於數據缺乏的新領域,TVIN 通過相似源領域的知識遷移,實現已有預訓練知識的利用,從而來提高目標領域最優策略的預測準確率。TVIN 的知識遷移方式可以克服單領域訓練依賴大規模數據的高計算複雜性和成本消耗等缺陷,實現模型效果增長。TVIN 算法主要提出了兩種知識遷移技巧:

1) 獎勵函數遷移 (Pre-trained reward function transferring):獎勵函數 fR 在 VIN 網絡中起了狀態特徵提取的作用。通過在源領域和目標領域的特徵空間之間加入編碼器(Auto-encoder)建立映射關係(圖中「Part I」所示),從而解決目標領域狀態空間不同的遷移問題。

2) 狀態轉移函數遷移 (Pre-trained transition function transferring):狀態轉移函數 fp 在 VIN 網絡中是實現值迭代模塊中值函數的迭代更新的作用。因此狀態轉移函數遷移主要是針對目標領域動作空間不同的遷移問題。從源領域到目標領域遷移相似動作對應的預訓練 fp 函數時,同時加入遷移權重 wt 表示遷移的程度,TVIN 自動學習對應動作的相似性(圖中「Part II」所示)。

通過 TVIN 的知識遷移方法,可實現在特徵空間和動作空間不同的目標領域,利用有限的數據集學習有效的最優策略。該情況下,相對於單領域的 VIN 訓練而言,TVIN 的知識遷移方式可以減少數據量需求,降低訓練成本,並且實現模型效果增長。

我們通過在 3 種不同的路徑規劃任務間的領域遷移來驗證我們模型的效果,結果證明我們提出的方法得到最佳路徑的概率以及到達終點的成功率都更高。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

原標題:《四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究》

閱讀原文

相關焦點

  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • AAAI 2020 提前看|三篇論文解讀問答系統最新研究進展
    機器之心原創作者:仵冀穎編輯:H4O2020 年 2 月 7 日至 12 日,AAAI 2020 將於美國紐約舉辦。今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。
  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    今年是騰訊 AI Lab 第 2 次參加 EMNLP,共有 16 篇文章入選,涵蓋語言理解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。此外,在今年的多個頂級學術會議中,騰訊 AI Lab 也入選多篇論文,位居國內企業前列,包括機器學習領域頂會 NIPS(20 篇)和 ICML(16 篇)、計算機視覺領域頂會 CVPR(21 篇)和 ECCV(19 篇),以及語音領域頂會 Interspeech(8 篇)等。
  • 百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺
    近日,國際自然語言處理領域頂級學術會議「國際計算語言學協會年會」(ACL 2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 京東雲與AI 10篇論文被AAAI 2020收錄,京東科技實力亮相世界舞臺
    美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智慧領域的頂級學術會議,每年評審並收錄來自全球最頂尖的學術論文,這些學術研究引領著技術的趨勢和未來。京東雲與AI在本次大會上有10篇論文被AAAI收錄,涉及自然語言處理、計算機視覺、機器學習等領域,充分展現了京東用技術驅動公司成長的發展模式以及技術實力,技術創新和應用落地也成為這些論文最吸引行業關注的亮點。
  • ACL 2020 清華大學 THUNLP 系列解讀
    ACL 2020 上,THUNLP實驗室有什麼新的研究進展?2020年4月3日,NLP 頂會 ACL 2020 公布錄用論文之後,AI科技評論相繼與哈工大、復旦大學聯合舉辦兩期「系列解讀」直播活動,受到廣大師生的好評。
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啟發。
  • 首屆AAAI/ACM SIGAI博士論文獎公布,姚班學霸吳佳俊獲獎
    AAAI / ACM SIGAI博士學位論文獎由AAAI和ACM SIGAI聯合設立,以表彰和鼓勵人工智慧領域的博士生的出色研究和論文,提名者必須是ACM SIGAI成員和/或AAAI成員。該獎項將每年在AAAI上頒發,獲獎者將被邀請在大會上發表演講。
  • 網易伏羲9篇論文入選AI頂會AAAI,科研實力再獲國際認可
    近日,國際人工智慧頂級會議AAAI 2021公布論文錄取結果。網易伏羲實驗室再創佳績,共有9篇論文入選,研究方向涉及強化學習、虛擬人、自然語言處理(NLP)、圖像動畫、用戶畫像等領域。科研成果的集中爆發,充分顯示網易伏羲在人工智慧的多個領域已經具備國際頂尖的技術創新能力。
  • 30篇亮點論文、5大主題帶你一覽ECCV 2020研究趨勢
    編譯 | 陳彩嫻、Barack編輯 | 陳彩嫻ECCV 2020已圓滿落幕。會議收到了1360篇論文投稿,其中包含104篇Oral論文、160篇Spotlight論文和1096篇Poster論文。為了更好地了解ECCV 2020的會議內容,來自深度學習專業的博士生Yassine Ouali整理了論文投稿的數據,並從以下五大主題總結了一些取得突破性成就的論文,對其進行了簡要概述:識別、檢測、分割和姿態估計半監督、無監督、遷移、表徵和小樣本學習3D計算機視覺與機器人圖像和視頻合成視覺和語言與2018年相比,近兩年ECCV的論文投稿數量一直保持兩倍的增長,與CVPR 2020的論文投稿數量接近
  • AAAI 2021最「嚴」一屆放榜:錄取率僅21%,網易伏羲9篇論文入選
    近日,國際人工智慧頂級會議AAAI 2021公布論文錄取結果。網易伏羲實驗室再創佳績,共有9篇論文入選,研究方向涉及強化學習、虛擬人、自然語言處理(NLP)、圖像動畫、用戶畫像等領域。科研成果的集中爆發,充分顯示網易伏羲在人工智慧的多個領域已經具備國際頂尖的技術創新能力。
  • AAAI 2021 最「嚴」一屆放榜:錄取率僅 21%,網易伏羲 9 篇論文入選
    近日,國際人工智慧頂級會議AAAI 2021公布論文錄取結果。網易伏羲實驗室再創佳績,共有9篇論文入選,研究方向涉及強化學習、虛擬人、自然語言處理(NLP)、圖像動畫、用戶畫像等領域。科研成果的集中爆發,充分顯示網易伏羲在人工智慧的多個領域已經具備國際頂尖的技術創新能力。
  • 論文主題、引用量、中國機構&華人學者,KDD 2020 關鍵數據搶先看!
    今年的 KDD 大會原定於2020 年 8 月 23 日 ~27 日在美國美國加利福尼亞州聖地牙哥舉行。而由於疫情影響,本次大會將以線上形式舉行。 前兩個月,KDD 2020 官方發布接收論文,共有1279篇論文提交到Research Track,共有216篇接受,接受率16.8%。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    北京時間 12 月 8 日凌晨,正在線上舉行的全球人工智慧頂會 NeurIPS 2020 公布了最佳論文等獎項。在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。今天,創新工場大灣區人工智慧研究院執行院長宋彥向媒體分享了這兩篇入選論文的研究內容。宋彥本人有超過15年的NLP領域的科研經驗。據宋彥介紹,中文分詞和詞性標註是中文自然語言處理的兩個基本任務。
  • AI專家們推薦的13篇「必讀」論文
    我們在一月份的時候就和Jeff談過,當時他不能只選一篇論文作為必讀,所以我們讓他選了兩篇。下面列出這兩篇論文。Learning to Reinforcement Learn(2016)--Jane X Wang et al.本文解讀了兩個關鍵的討論點,即稀疏訓練數據的局限性,以及循環網絡是否能在完全監督的情況下支持元學習。
  • 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
    這還是主流模型,如果沒讀過具體論文,我們是很難分清楚的,對於更多的變體與擴展,基本上就無能為力了。但近日復旦大學邱錫鵬等研究者發了一篇論文,它以兩張圖詳細展示了預訓練語言模型的現狀與分類。復旦的這篇綜述性論文非常豐富,它以 25 頁的篇幅展示了預訓練語言模型的方方面面,不論是新奇的預訓練任務,還是各種模型針對領域知識的擴展,我們都能快速 Get 到。
  • 2020全球臨床醫學領域TOP10研究熱點
    11月13日,中科院科技戰略諮詢研究院、中科院文獻情報中心與科睿唯安在京向全球發布《2020研究前沿》報告。 《2020 研究前沿》報告遴選出11大領域的110個熱點前沿和38個新興前沿,並對重要的前沿進行了解讀分析。 其中,涉及臨床醫學的10個熱點研究前沿引發了業內廣泛關注。
  • 雲知聲- CMU 合作論文入選全球 AI 頂會 NeurIPS 2020
    在官方公布的論文入選名單中,雲知聲與 CMU (卡內基梅隆大學)張坤教授團隊等合作的針對機器學習典型的無監督領域自適應問題論文《Domain Adaptation As a Problem of Inference on Graphical Models》,憑藉基於數據驅動的圖模型框架解決方案的創新研究成功入選,彰顯了雲知聲在人工智慧與機器學習原創技術領域的持續創新能力。