復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁

2020-12-17 讀芯術

不到現場,照樣看最乾貨的學術報告!嗨,大家好。這裡是學術報告專欄,讀芯術小編不定期挑選並親自跑會,為大家奉獻科技領域最優秀的學術報告,為同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。

人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。AI未來說·青年學術論壇自 2019 年 1 月 19 日啟動以來,論壇已連續舉辦十二期,累計吸引上萬人報名參加,報名群體遍布全國三十多個省份,境內外十三個國家,四百餘所高校和科研院所。 第十二期AI未來說·青年學術論壇(百度獎學金博士生特別專場)已於2020年1月5日下午在北京市百度科技園 K6 報告廳舉行。復旦大學桂韜為大家帶來報告《當NLP邂逅Social Media--構建計算機與網絡語言的橋梁》。

桂韜,復旦大學自然語言處理實驗室博士生,導師是張奇和黃萱菁教授。一直致力於網絡語言的自然語言處理研究,包括信息抽取、序列標註、強化學習、元學習等。

報告內容:社交媒體已經深入到了我們生活的方方面面,網絡語言在社交領域的溝通中得到了越來越廣泛的應用,但是非規範化的社交語言會給我們常用的自然語言處理(NLP)算法帶來性能上的下降。報告主要內容聚焦於社交媒體與NLP的結合領域,以及如何構建計算機與網絡語言的橋梁。

當NLP邂逅Social Media--構建計算機與網絡語言的橋梁

桂韜博士的報告分享主要包括網絡語言概述、網絡語言困境、網絡語言脫困和網絡語言價值等四個部分。

桂韜博士先介紹了網絡語言概述的部分。社交媒體主要有以下特點:1)自發傳播,社交媒體是人們彼此分享思想見解及建立關係的在線平臺,每個人都能夠根據自己的意願在社交平臺上發布消息,以及發布評論;2)「社會化」屬性,表現於社交媒體用戶之間的關係的構建,強調人與人的互動,這也是社交媒體上魅力最大的一點;3)表現形式多樣,包括文本、視頻、音頻、圖片以及社區等。

社交媒體是人們在網絡上發表意見、開展活動的總稱,由於其自發傳播、「社會化」屬性和表現形式多樣等特點,它已經成為人們日常生活中不可或缺的一部分。比如,近年來,以微博、微信以及社交網站等為代表的社會媒體在我國發展迅速。據2018年《微信數據報告》顯示,微信月活躍用戶突破十億,每天產生450億條消息。隨著網路的不斷普及,人們越來越多的交流也通過網絡實現,也因此誕生一種網絡上的自然交際語言,即網絡語言。

網絡語言的出現主要包括以下原因:1)非人為因素,輸入錯誤或者常識上的拼寫錯誤;2)追求某種娛樂性或某種目的,故意拼錯一些單詞或使用某些語言。由於網絡語言的非規範性,使其不同於正常文本,也因此給熱點追蹤、信息查詢和自動摘要等自然語言的應用帶來了非常大的困難。常見的網絡語言有「明年他要C位出道」,「這是神馬規矩」,「I服了U」和「皮一下,很開心」等。

網絡語言的困境包括:1)標註數據少,新聞領域的標註數據比網絡語言大上幾百倍,標註數據量少加上多樣性導致NLP算法的性能非常差;2)舊詞新意、另造新詞,隨著網絡的發展,很多正規詞彙不斷被賦予新的含義,同時也會出現很多新的詞彙,往往會使模型對句子、段落以及篇章的理解產生偏差;3)語法、語用不規範,在開放的網絡環境下,人們會傾向於使用簡潔、高效和不拘一格的表達方式,這樣會使得產生的語言不在正規語法的約束下,因此會給基於正規語法結構的NLP算法帶來非常大的困難。

為應對網絡語言所面臨的困境,桂韜博士提出了使用遷移學習、外部知識、全局語義和動態建模等四個方法來幫助網絡語言脫困。

針對標註數據少的問題,提出可以使用新聞語料和無標註語料來輔助訓練,比如使用CNN建模詞語字符級別的信息,可以非常好地解決網絡語言拼寫錯誤的問題。並介紹了TPANN(Target Preserved Adversarial Neural Network, EMNLP 2017 )方法來尋找新聞語料和網絡語言語料的共同特徵,然後把新聞預料上訓練的模型遷移到網絡語言語料上進行詞性標註等,該方法在Twitter的三個詞性標註數據集上都取得了很好的結果。

此外,通過對網絡語言的學習和分析,可以發現網絡語言不僅包含正規的文本表達方式,還包含自己特有的表達方式。這些特有的表達方式是無法通過遷移學習從正式文本當中遷移過來,為了在遷移學習的時候不會使得特有的表達方式受到損害,又提出了DCNN(Dynamic Conversion Neural Networks, EMNLP 2018)方法。該方法仍然是用一個網絡來建模正規表達文本和不正規表達文本,但是模型可以根據不同的表達方式來生成不同的分布,然後基於不同的分布生成不同的參數,即正規表達文本通過模型會生成一組參數來建模正規表達文本,而不正規表達文本通過模型會生成另一組參數來建模不正規表達文本,這樣可以保留網絡語言的特性,並通過可視化的實驗進行了驗證。

舊詞新意和另造新詞是非常容易引起語言上歧義的問題,特別是對於中文來說,字與字之間以及詞與詞之間是沒有分隔符的,如果出現歧義現象會對中文的NLP算法產生非常大的損害。先前的NLP算法都是基於循環神經網絡來做的,但是存在很大的缺陷,一是由於序列建模,往往速度很慢,二是在建模句子以後無法對可能存在歧義詞的權重或表達重新調整。為了在建模句子以後可以重新調整可能存在歧義的詞,同時能夠並行處理,提出了一種LR-CNN(Lexicon Rethinking Convolutional Neural Network, IJCAI 2019)方法。該想法是非常簡單的,當CNN卷積網絡的寬度是2的時候,能夠把一個句子匹配的所有詞在不同的位置上一一對應上,所以該方法能非常好地並行處理所有的字和詞。引入反思的機制,可以在模型構建整個句子之後對可能存在匹配歧義的詞調整它們的表達和權重,從而達到消除歧義的結果。該方法在社交媒體語料和新聞語料上進行測試時,在不同長度的句子上都取得了比Lattice LSTM好的結果,同時在速度上也有很大的提升(尤其是比較長的句子)。

值得注意的是,LR-CNN方法中CNN的感受野比較小,當句子比較短的時候,效果比Lattice LSTM好很多。為了獲得更大的感受野,同時又有消除歧義的能力,又提出了一種結合字典和圖神經網絡的LGN方法,是在自然語言處理領域中第一個在沒有句法依存樹的情況下、基於中文建模的一個圖神經網絡。該方法使用詞典信息來建模字與字之間的關係,並通過引入全局節點來解決詞典可能覆蓋不全以及引入全局語義的問題,字與字的關係可以通過全局節點做到兩步可達,基於這種機制反覆迭代,並結合全局語義為詞語消除歧義,並在相關的數據集上取得了很好的結果。

語法、語用不規範的問題也是網絡語言面臨的困境之一。在社交媒體上,人們會根據自己的使用習慣,發表觀點或評論,這樣可能會引入各種插入語的問題,導致詞與詞之間的依賴關係是動態變化的。先前的基於序列建模的方法,往往很難處理這種動態跳躍的問題。針對該問題,提出了基於強化學習的、動態跳躍連接的LSTM方法(AAAI 2019),不僅可以基於前序建模詞與詞之間的關係,而且可以動態地挑選周圍或前面的state來計算當前詞的表達,從而可以動態建模依賴關係。該方法除了有理論證明之外,還在英文識別等任務中取得了比基於常規LSTM方法更好的結果。

桂韜博士在介紹完對網絡語言NLP算法的改進之後,又介紹了網絡語言的價值。使用網絡語言挖掘社會價值已經有了很多的應用,包括股票預測、公共衛生分析以及實時事件檢測等。並介紹了自己在挖掘網絡語言價值上的兩個工作:1)使用基於協作的強化學習框架,把多模態網路語言用於早期抑鬱症的發現(AAAI 2019);2)使用基於協作的強化學習框架,把網絡語言的交互用於用戶行為的預測(SIGIR 2019)。

最後,桂韜博士分享了自己的代碼地址(https://github.com/guitaowufeng)和學術主頁(https://scholar.google.de/citations?user=BrOLQdwAAAAJ&hl=zh-CN)。更多精彩內容請關注視頻分享~

AI未來說*青年學術論壇

第一期 數據挖掘專場

1. 李國傑院士:理性認識人工智慧的「頭雁」作用

2. 百度熊輝教授:大數據智能化人才管理

3. 清華唐傑教授:網絡表示學習理論及應用

4. 瑞萊智慧劉強博士:深度學習時代的個性化推薦

5. 清華柴成亮博士:基於人機協作的數據管理

第二期 自然語言處理專場

1. 中科院張家俊:面向自然語言生成的同步雙向推斷模型

2. 北郵李蕾:關於自動文本摘要的分析與討論

3. 百度孫珂:對話技術的產業化應用與問題探討

4. 阿里譚繼偉:基於序列到序列模型的文本摘要及淘寶的實踐

5. 哈工大劉一佳:通過句法分析看上下文相關詞向量

第三期 計算機視覺專場

1. 北大彭宇新:跨媒體智能分析與應用

2. 清華魯繼文:深度強化學習與視覺內容理解

3. 百度李穎超:百度增強現實技術及應

4. 中科院張士峰:基於深度學習的通用物體檢測算法對比探索

5. 港中文李弘揚 :物體檢測最新進展

第四期 語音技術專場

1. 中科院陶建華:語音技術現狀與未來

2. 清華大學吳及:音頻信號的深度學習處理方法

3. 小米王育軍:小愛背後的小米語音技術

4. 百度康永國:AI 時代的百度語音技術

5. 中科院劉斌:基於聯合對抗增強訓練的魯棒性端到端語音識別

第五期 量子計算專場

1. 清華大學翟薈:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大學魯大為:量子計算與人工智慧的碰撞

3. 荷蘭國家數學和計算機科學中心(CWI)李繹楠:大數據時代下的量子計算

4. 蘇黎世聯邦理工學院(ETH)楊宇翔:量子精密測量

5. 百度段潤堯:量子架構——機遇與挑戰

第六期 機器學習專場

1. 中科院張文生:健康醫療大數據時代的認知計算

2. 中科院莊福振:基於知識共享的機器學習算法研究及應用

3. 百度胡曉光:飛槳(PaddlePaddle)核心技術與應用實踐

4. 清華大學王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大學趙申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自動駕駛專場

1. 北京大學查紅彬:基於數據流處理的SLAM技術

2. 清華大學鄧志東:自動駕駛的「感」與「知」 - 挑戰與機遇

3. 百度朱帆:開放時代的自動駕駛 - 百度Apollo計劃

4. 北理宋文杰:時空域下智能車輛未知區域自主導航技術

第八期 深度學習專場

1. 中科院文新:深度學習入門基礎與學習資源

2. 中科院陳智能:計算機視覺經典——深度學習與目標檢測

3. 中科院付鵬:深度學習與機器閱讀

第九期 個性化內容推薦專場

1. 人民大學趙鑫:基於知識與推理的序列化推薦技術研究

2. 中科院趙軍:知識圖譜關鍵技術及其在推薦系統中的應用

第十期 視頻理解與推薦專場

1. 北京大學袁曉如:智能數據可視分析

第十一期 信息檢索與知識圖譜專場

1. 人民大學徐君:智能搜索中的排序-突破概率排序準則

2. 北京郵電大學邵鎣俠:知識圖譜高效嵌入方法

3. 百度宋勳超:百度大規模知識圖譜構建及智能應用

4. 百度周景博:POI知識圖譜的構建及應用

5. 百度馮知凡:基於知識圖譜的多模認知技術及智能應用

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 國內自然語言處理(NLP)研究組
    /natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com阿里巴巴達摩院語言技術實驗室
  • 雅思口語|Part3:Social media 社交媒體
    addictiveness 致癮性 The point about social media is the addictiveness.社交媒體的關鍵在於其致癮性 spend hours and hours
  • 看看復旦研究生的真實記錄,建議收藏!
    過去一年,復旦校園見證了無數勤勉學子的日日夜夜。日前,2018-2019年復旦大學研究生優秀學生標兵評選結果出爐,讓我們一起來揭秘這群研究生」學霸」的一天和他們的「優秀「秘笈。6:30 清晨6點半,附屬眼耳鼻喉科醫院2017級博士生高鳳娟正從學校去往醫院,三十分鐘的步行路程她堅持了三年。
  • 深度學習概述:NLP vs CNN
    自然語言處理 – NLP自然語言處理(Natural Language Processing - NLP)是人工智慧研究的熱點之一。NLP處理語言(文本數據)並執行諸如翻譯、音譯、語義分析、聊天機器人開發、文本擬態、文本轉語音等任務。
  • 資料| CCF-NLP走進鄭州大學演講PPT
    內容簡介 「CCF-NLP走進高校」是由中國計算機學會自然語言處理專業委員會(CCF-NLP)發起,聯合AI研習社及各個知名高校開展的一系列高校NLP研究分享活動。回放視頻:https://www.yanxishe.com/events/ccf-nlp-zzu資料包括的分享內容:周明   演講主題:預訓練模型在多語言和多模態任務中的一些新進展周國棟   演講主題:自然語言與理解補充說明本站所有資源版權均屬於原作者所有
  • Gg或Mm你是如何使用網絡語言的
    ,有許多特有的語言已經成為網絡裡的一大特色。網絡語言的興起, 有利於人們信息傳輸更為方便快捷。由於簡化了語言符號,對於那些打字生疏的人, 真是受益非淺。但是,初出茅廬的人不懂得網絡語言的含義,是他們有語言障礙,甚至使他們無法溝通,而且,有部分網絡語言是粗言穢語,如「BT」指的是「變態」等,這在人們純潔的心靈上,抹下了黑色的斑痕。
  • 2019 年 NLP 領域都發生了哪些大事件?
    谷歌人工智慧量子計算團隊在「Nature」雜誌上發表了一篇論文《Quantum supremacy using a programmable superconducting processor》,他們聲稱已經研發出了一種比世界上最大的超級計算機還要快的量子計算機。如上所述,可解釋性是神經網絡架構領域需要進行大量改進的領域之一。
  • 直播預告|「CCF-NLP走進高校」系列之「走進深圳大學」
    「CCF-NLP走進高校」系列分享是CCF-NLP為了促進更多師生對自然語言處理前沿進展的了解,幫助在校計算機及相關專業大學生成長和發展,特邀領域內的權威大牛們走進更多的高校,與師生進行溝通和交流,讓學術思想流動起來,共同學習進步。
  • 如何快速學習計算機程式語言
    如何快速學習計算機程式語言呢?這是很多零基礎同學想要知道的答案。隨著網際網路的飛速發展,程式設計師的工資越來越高,很多人想加入程式設計師的隊列,想要快速掌握編程技術。那麼應該如何快速學習計算機程式語言呢?1、首先應該知道自己為什麼學習計算機程式語言,如果只是盲目的追求高薪,對電腦程式沒有濃厚的興趣,那麼零基礎想要快速學習計算機程式語言是非常困難的。想計算機程式語言,應該擁有濃厚的興趣,再加上堅持不懈的精神,這樣才能更快地學習程式語言。
  • 10位優秀本科生獲評復旦大學2020屆本(專)科「畢業生之星」
    獲評學生中,有勤學篤志、在國內外頂尖平臺展現本科生科研風採的「硬核學霸」,有好學力行,將專業學習的前沿轉化為技術實踐的「研發達人」,也有行走世界各地、投身全球治理的「橋梁青年」。他們的故事激勵更多復旦學子胸懷遠大理想、矢志艱苦奮鬥、錘鍊過硬本領、心繫祖國人民,以實際行動踐行「團結、服務、犧牲」的復旦精神。
  • 構建「普遍語言世界圖景」
    語言是一個國家和民族的符號,反映其特徵,也是其身份的象徵,是一個國家和民族創造出來的一種特殊精神財富,更是其社會發展的重要動力,甚至可以視為一個國家和民族綜合實力的重要衡量指標。語言作為全球一體化背景下國際合作、交流互鑑的重要橋梁和紐帶,不僅是文化的組成部分,而且是文化的重要傳播工具,對於推進一個國家國際傳播能力建設,提高國家文化軟實力,提升國際話語權和國際影響力發揮著重要作用。語盛則國強。
  • 計算機能「理解」多少我們的語言了?
    如果沒人能對談,人會自言自語,對貓兒狗兒說話,甚至對盆栽呢喃。你或許並未察覺,閱讀這些文字時,自然界的奇蹟正在發生。你我都屬於有這種驚異能力的種族——我們能精確描繪彼此腦中的概念——這種能力就是語言。我們只要張開嘴,發出聲音,或者寫下文字,就能將彼此心中的意念準確地傳遞給對方。這個過程如此輕鬆自然,讓人意識不到它的存在。
  • 何曉冬、陳博興、夏睿主講,張嶽、萬小軍主持,這場NLP知識盛宴不可...
    「CCF-NLP走進高校」系列分享是CCF-NLP為了促進更多師生對自然語言處理前沿進展的了解,幫助在校計算機及相關專業大學生成長和發展,特邀領域內的權威大牛們走進更多的高校,與師生進行溝通和交流,讓學術思想流動起來,共同學習進步
  • CCL 2020閉幕,數萬人見證2020年中國NLP全貌剪影
    Mirella 教授的研究根據編劇理論中的轉折點等將電影生成形式化,並基於語言和視聽信息,提出了一個圖神經網絡模型。Mirella指出,將熒幕劇本(screenplays)表示成(稀疏)圖有助於提升可解釋性。11月1日上午,清華大學施路平教授做了主題為《面向人工通用智能的類腦計算》的報告。
  • NLP中的文本分析和特徵工程
    NLP(自然語言處理)是人工智慧的一個領域,研究計算機和人類語言之間的交互,特別是如何編程計算機來處理和分析大量的自然語言數據。NLP經常被應用於文本數據的分類。文本分類是根據文本數據的內容給文本數據分配類別的問題。文本分類最重要的部分是特徵工程:從原始文本數據為機器學習模型創建特徵的過程。
  • AIOpen 預訓練語言模型專刊徵稿
    2018 年 ELMo、BERT 和 GPT 的成功發布,表明了預訓練語言模型(PLM)的成功,隨後又在自然語言理解和生成方面取得了重大突破。目前,在探索更有效的預訓練架構方面,已經做了很多卓有成效的工作,比如使用跨模態數據、跨語言數據和結構化知識等方法改進預訓練語言模型,或將 PLM 創新地應用於各種與 NLP 相關的任務。
  • csdn最適合人工智慧開發的程式語言優缺點對比
    此外,python是一種支持面向對象、過程和功能編程樣式的多範式程式語言。python以其簡單的庫和理想的結構支持神經網絡和nlp解的開發。優勢Python有多種庫和工具。支持算法測試而不實現。python面向對象的設計提高了程式設計師的生產力。
  • 復旦理工科學生用公式表愛意 三行情詩風靡網絡
    「高斯拿走了我的尺規/從今以後我只好/徒手為你修眉」;「我將對你的愛寫進每一個微分裡/然後積起來/直到無法收斂」……近日,復旦大學數學學院舉辦的「Dirichlet杯三行情詩大賽」作品風靡網際網路,在這些理科生的筆下,複雜難懂的數學語言化身成為綿綿情話,各種公式、符號、原理顯柔情,一改人們對於理工科學生「木訥」、「不解風情」的印象