復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁

2020-12-17 讀芯術

不到現場，照樣看最乾貨的學術報告！嗨，大家好。這裡是學術報告專欄，讀芯術小編不定期挑選並親自跑會，為大家奉獻科技領域最優秀的學術報告，為同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

人工智慧論壇如今浩如煙海，有硬貨、有乾貨的講座卻百裡挑一。AI未來說·青年學術論壇自 2019 年 1 月 19 日啟動以來，論壇已連續舉辦十二期，累計吸引上萬人報名參加，報名群體遍布全國三十多個省份，境內外十三個國家，四百餘所高校和科研院所。第十二期AI未來說·青年學術論壇（百度獎學金博士生特別專場）已於2020年1月5日下午在北京市百度科技園 K6 報告廳舉行。復旦大學桂韜為大家帶來報告《當NLP邂逅Social Media--構建計算機與網絡語言的橋梁》。

桂韜，復旦大學自然語言處理實驗室博士生，導師是張奇和黃萱菁教授。一直致力於網絡語言的自然語言處理研究，包括信息抽取、序列標註、強化學習、元學習等。

報告內容：社交媒體已經深入到了我們生活的方方面面，網絡語言在社交領域的溝通中得到了越來越廣泛的應用，但是非規範化的社交語言會給我們常用的自然語言處理（NLP）算法帶來性能上的下降。報告主要內容聚焦於社交媒體與NLP的結合領域，以及如何構建計算機與網絡語言的橋梁。

當NLP邂逅Social Media--構建計算機與網絡語言的橋梁

桂韜博士的報告分享主要包括網絡語言概述、網絡語言困境、網絡語言脫困和網絡語言價值等四個部分。

桂韜博士先介紹了網絡語言概述的部分。社交媒體主要有以下特點：1）自發傳播，社交媒體是人們彼此分享思想見解及建立關係的在線平臺，每個人都能夠根據自己的意願在社交平臺上發布消息，以及發布評論；2）「社會化」屬性，表現於社交媒體用戶之間的關係的構建，強調人與人的互動，這也是社交媒體上魅力最大的一點；3）表現形式多樣，包括文本、視頻、音頻、圖片以及社區等。

社交媒體是人們在網絡上發表意見、開展活動的總稱，由於其自發傳播、「社會化」屬性和表現形式多樣等特點，它已經成為人們日常生活中不可或缺的一部分。比如，近年來，以微博、微信以及社交網站等為代表的社會媒體在我國發展迅速。據2018年《微信數據報告》顯示，微信月活躍用戶突破十億，每天產生450億條消息。隨著網路的不斷普及，人們越來越多的交流也通過網絡實現，也因此誕生一種網絡上的自然交際語言，即網絡語言。

網絡語言的出現主要包括以下原因：1）非人為因素，輸入錯誤或者常識上的拼寫錯誤；2）追求某種娛樂性或某種目的，故意拼錯一些單詞或使用某些語言。由於網絡語言的非規範性，使其不同於正常文本，也因此給熱點追蹤、信息查詢和自動摘要等自然語言的應用帶來了非常大的困難。常見的網絡語言有「明年他要C位出道」，「這是神馬規矩」，「I服了U」和「皮一下，很開心」等。

網絡語言的困境包括：1）標註數據少，新聞領域的標註數據比網絡語言大上幾百倍，標註數據量少加上多樣性導致NLP算法的性能非常差；2）舊詞新意、另造新詞，隨著網絡的發展，很多正規詞彙不斷被賦予新的含義，同時也會出現很多新的詞彙，往往會使模型對句子、段落以及篇章的理解產生偏差；3）語法、語用不規範，在開放的網絡環境下，人們會傾向於使用簡潔、高效和不拘一格的表達方式，這樣會使得產生的語言不在正規語法的約束下，因此會給基於正規語法結構的NLP算法帶來非常大的困難。

為應對網絡語言所面臨的困境，桂韜博士提出了使用遷移學習、外部知識、全局語義和動態建模等四個方法來幫助網絡語言脫困。

針對標註數據少的問題，提出可以使用新聞語料和無標註語料來輔助訓練，比如使用CNN建模詞語字符級別的信息，可以非常好地解決網絡語言拼寫錯誤的問題。並介紹了TPANN（Target Preserved Adversarial Neural Network, EMNLP 2017 ）方法來尋找新聞語料和網絡語言語料的共同特徵，然後把新聞預料上訓練的模型遷移到網絡語言語料上進行詞性標註等，該方法在Twitter的三個詞性標註數據集上都取得了很好的結果。

此外，通過對網絡語言的學習和分析，可以發現網絡語言不僅包含正規的文本表達方式，還包含自己特有的表達方式。這些特有的表達方式是無法通過遷移學習從正式文本當中遷移過來，為了在遷移學習的時候不會使得特有的表達方式受到損害，又提出了DCNN（Dynamic Conversion Neural Networks, EMNLP 2018）方法。該方法仍然是用一個網絡來建模正規表達文本和不正規表達文本，但是模型可以根據不同的表達方式來生成不同的分布，然後基於不同的分布生成不同的參數，即正規表達文本通過模型會生成一組參數來建模正規表達文本，而不正規表達文本通過模型會生成另一組參數來建模不正規表達文本，這樣可以保留網絡語言的特性，並通過可視化的實驗進行了驗證。

舊詞新意和另造新詞是非常容易引起語言上歧義的問題，特別是對於中文來說，字與字之間以及詞與詞之間是沒有分隔符的，如果出現歧義現象會對中文的NLP算法產生非常大的損害。先前的NLP算法都是基於循環神經網絡來做的，但是存在很大的缺陷，一是由於序列建模，往往速度很慢，二是在建模句子以後無法對可能存在歧義詞的權重或表達重新調整。為了在建模句子以後可以重新調整可能存在歧義的詞，同時能夠並行處理，提出了一種LR-CNN(Lexicon Rethinking Convolutional Neural Network, IJCAI 2019)方法。該想法是非常簡單的，當CNN卷積網絡的寬度是2的時候，能夠把一個句子匹配的所有詞在不同的位置上一一對應上，所以該方法能非常好地並行處理所有的字和詞。引入反思的機制，可以在模型構建整個句子之後對可能存在匹配歧義的詞調整它們的表達和權重，從而達到消除歧義的結果。該方法在社交媒體語料和新聞語料上進行測試時，在不同長度的句子上都取得了比Lattice LSTM好的結果，同時在速度上也有很大的提升（尤其是比較長的句子）。

值得注意的是，LR-CNN方法中CNN的感受野比較小，當句子比較短的時候，效果比Lattice LSTM好很多。為了獲得更大的感受野，同時又有消除歧義的能力，又提出了一種結合字典和圖神經網絡的LGN方法，是在自然語言處理領域中第一個在沒有句法依存樹的情況下、基於中文建模的一個圖神經網絡。該方法使用詞典信息來建模字與字之間的關係，並通過引入全局節點來解決詞典可能覆蓋不全以及引入全局語義的問題，字與字的關係可以通過全局節點做到兩步可達，基於這種機制反覆迭代，並結合全局語義為詞語消除歧義，並在相關的數據集上取得了很好的結果。

語法、語用不規範的問題也是網絡語言面臨的困境之一。在社交媒體上，人們會根據自己的使用習慣，發表觀點或評論，這樣可能會引入各種插入語的問題，導致詞與詞之間的依賴關係是動態變化的。先前的基於序列建模的方法，往往很難處理這種動態跳躍的問題。針對該問題，提出了基於強化學習的、動態跳躍連接的LSTM方法（AAAI 2019），不僅可以基於前序建模詞與詞之間的關係，而且可以動態地挑選周圍或前面的state來計算當前詞的表達，從而可以動態建模依賴關係。該方法除了有理論證明之外，還在英文識別等任務中取得了比基於常規LSTM方法更好的結果。

桂韜博士在介紹完對網絡語言NLP算法的改進之後，又介紹了網絡語言的價值。使用網絡語言挖掘社會價值已經有了很多的應用，包括股票預測、公共衛生分析以及實時事件檢測等。並介紹了自己在挖掘網絡語言價值上的兩個工作：1）使用基於協作的強化學習框架，把多模態網路語言用於早期抑鬱症的發現（AAAI 2019）；2)使用基於協作的強化學習框架，把網絡語言的交互用於用戶行為的預測（SIGIR 2019）。

最後，桂韜博士分享了自己的代碼地址（https://github.com/guitaowufeng）和學術主頁（https://scholar.google.de/citations?user=BrOLQdwAAAAJ&hl=zh-CN）。更多精彩內容請關注視頻分享~

AI未來說*青年學術論壇

第一期數據挖掘專場

1. 李國傑院士：理性認識人工智慧的「頭雁」作用

2. 百度熊輝教授：大數據智能化人才管理

3. 清華唐傑教授：網絡表示學習理論及應用

4. 瑞萊智慧劉強博士：深度學習時代的個性化推薦

5. 清華柴成亮博士：基於人機協作的數據管理

第二期自然語言處理專場

1. 中科院張家俊：面向自然語言生成的同步雙向推斷模型

2. 北郵李蕾：關於自動文本摘要的分析與討論

3. 百度孫珂：對話技術的產業化應用與問題探討

4. 阿里譚繼偉：基於序列到序列模型的文本摘要及淘寶的實踐

5. 哈工大劉一佳：通過句法分析看上下文相關詞向量

第三期計算機視覺專場

1. 北大彭宇新：跨媒體智能分析與應用

2. 清華魯繼文：深度強化學習與視覺內容理解

3. 百度李穎超：百度增強現實技術及應

4. 中科院張士峰：基於深度學習的通用物體檢測算法對比探索

5. 港中文李弘揚：物體檢測最新進展

第四期語音技術專場

1. 中科院陶建華：語音技術現狀與未來

2. 清華大學吳及：音頻信號的深度學習處理方法

3. 小米王育軍：小愛背後的小米語音技術

4. 百度康永國：AI 時代的百度語音技術

5. 中科院劉斌：基於聯合對抗增強訓練的魯棒性端到端語音識別

第五期量子計算專場

1. 清華大學翟薈：Discovering Quantum Mechanics with Machine Learning

2. 南方科技大學魯大為：量子計算與人工智慧的碰撞

3. 荷蘭國家數學和計算機科學中心（CWI）李繹楠：大數據時代下的量子計算

4. 蘇黎世聯邦理工學院（ETH）楊宇翔：量子精密測量

5. 百度段潤堯：量子架構——機遇與挑戰

第六期機器學習專場

1. 中科院張文生：健康醫療大數據時代的認知計算

2. 中科院莊福振：基於知識共享的機器學習算法研究及應用

3. 百度胡曉光：飛槳（PaddlePaddle）核心技術與應用實踐

4. 清華大學王奕森：Adversarial Machine Learning: Attack and Defence

5. 南京大學趙申宜：SCOPE - Scalable Composite Optimization for Learning

第七期自動駕駛專場

1. 北京大學查紅彬：基於數據流處理的SLAM技術

2. 清華大學鄧志東：自動駕駛的「感」與「知」 - 挑戰與機遇

3. 百度朱帆：開放時代的自動駕駛 - 百度Apollo計劃

4. 北理宋文杰：時空域下智能車輛未知區域自主導航技術

第八期深度學習專場

1. 中科院文新：深度學習入門基礎與學習資源

2. 中科院陳智能：計算機視覺經典——深度學習與目標檢測

3. 中科院付鵬：深度學習與機器閱讀

第九期個性化內容推薦專場

1. 人民大學趙鑫：基於知識與推理的序列化推薦技術研究

2. 中科院趙軍：知識圖譜關鍵技術及其在推薦系統中的應用

第十期視頻理解與推薦專場

1. 北京大學袁曉如：智能數據可視分析

第十一期信息檢索與知識圖譜專場

1. 人民大學徐君：智能搜索中的排序-突破概率排序準則

2. 北京郵電大學邵鎣俠：知識圖譜高效嵌入方法

3. 百度宋勳超：百度大規模知識圖譜構建及智能應用

4. 百度周景博：POI知識圖譜的構建及應用

5. 百度馮知凡：基於知識圖譜的多模認知技術及智能應用

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載，請後臺留言，遵守轉載規範

復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁

相關焦點

國內自然語言處理(NLP)研究組

雅思口語|Part3:Social media 社交媒體

看看復旦研究生的真實記錄,建議收藏!

深度學習概述:NLP vs CNN

資料| CCF-NLP走進鄭州大學演講PPT

Gg或Mm你是如何使用網絡語言的

2019 年 NLP 領域都發生了哪些大事件?

直播預告|「CCF-NLP走進高校」系列之「走進深圳大學」

如何快速學習計算機程式語言

10位優秀本科生獲評復旦大學2020屆本(專)科「畢業生之星」

構建「普遍語言世界圖景」

計算機能「理解」多少我們的語言了?

何曉冬、陳博興、夏睿主講,張嶽、萬小軍主持,這場NLP知識盛宴不可...

CCL 2020閉幕,數萬人見證2020年中國NLP全貌剪影

NLP中的文本分析和特徵工程

AIOpen 預訓練語言模型專刊徵稿

csdn最適合人工智慧開發的程式語言優缺點對比

復旦理工科學生用公式表愛意三行情詩風靡網絡

復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁

相關焦點

國內自然語言處理(NLP)研究組

雅思口語|Part3:Social media 社交媒體

看看復旦研究生的真實記錄,建議收藏!

深度學習概述:NLP vs CNN

資料| CCF-NLP走進鄭州大學演講PPT

Gg或Mm你是如何使用網絡語言的

2019 年 NLP 領域都發生了哪些大事件?

直播預告|「CCF-NLP走進高校」系列之「走進深圳大學」

如何快速學習計算機程式語言

10位優秀本科生獲評復旦大學2020屆本(專)科「畢業生之星」

構建「普遍語言世界圖景」

計算機能「理解」多少我們的語言了?

何曉冬、陳博興、夏睿主講,張嶽、萬小軍主持,這場NLP知識盛宴不可...

CCL 2020閉幕,數萬人見證2020年中國NLP全貌剪影

NLP中的文本分析和特徵工程

AIOpen 預訓練語言模型專刊徵稿

csdn最適合人工智慧開發的程式語言優缺點對比

復旦理工科學生用公式表愛意 三行情詩風靡網絡

復旦理工科學生用公式表愛意三行情詩風靡網絡