專欄 | 清華大學劉知遠:在深度學習時代用HowNet搞事情

2021-02-13 機器之心

2017 年 12 月底,清華大學張鈸院士做了一場題為《AI 科學突破的前夜,教授們應當看到什麼?》的精彩特邀報告。他認為,處理知識是人類所擅長的,而處理數據是計算機所擅長的,如果能夠將二者結合起來,一定能夠構建出比人類更加智能的系統。因此他提出,AI 未來的科學突破是建立一種同時基於知識和數據的 AI 系統。

我完全贊同張鈸老師的學術觀點。最近一年裡,我們在這方面也做了一些嘗試,將語言知識庫 HowNet 中的義原標註信息融入面向 NLP 的深度學習模型中,取得了一些有意思的結果,在這裡整理與大家分享一下。

什麼是 HowNet

HowNet 是董振東先生、董強先生父子畢數十年之功標註的大型語言知識庫,主要面向中文(也包括英文)的詞彙與概念 [1]。

HowNet 秉承還原論思想,認為詞彙/詞義可以用更小的語義單位來描述。這種語義單位被稱為「義原」(Sememe),顧名思義就是原子語義,即最基本的、不宜再分割的最小語義單位。在不斷標註的過程中,HowNet 逐漸構建出了一套精細的義原體系(約 2000 個義原)。HowNet 基於該義原體系累計標註了數十萬詞彙/詞義的語義信息。

例如「頂點」一詞在 HowNet 有兩個代表義項,分別標註義原信息如下,其中每個「xx|yy」代表一個義原,「|」左邊為英文右邊為中文;義原之間還被標註了複雜的語義關係,如 host、modifier、belong 等,從而能夠精確地表示詞義的語義信息。

頂點 #1

DEF={Boundary|界限:host={entity|實體},modifier={GreaterThanNormal|高於正常:degree={most|最}}}

頂點 #2

DEF={location|位置:belong={angular|角},modifier={dot|點}}

在 NLP 領域知識庫資源一直扮演著重要角色,在英語世界中最具知名度的是 WordNet,採用同義詞集(synset)的形式標註詞彙/詞義的語義知識。HowNet 採取了不同於 WordNet 的標註思路,可以說是我國學者為 NLP 做出的最獨具特色的傑出貢獻。HowNet 在 2000 年前後引起了國內 NLP 學術界極大的研究熱情,在詞彙相似度計算、文本分類、信息檢索等方面探索了 HowNet 的重要應用價值 [2,3],與當時國際上對 WordNet 的應用探索相映成趣。

深度學習時代 HowNet 有什麼用

進入深度學習時代,人們發現通過大規模文本數據也能夠很好地學習詞彙的語義表示。例如以 word2vec[4] 為代表的詞表示學習方法,用低維(一般數百維)、稠密、實值向量來表示每個詞彙/詞義的語義信息,又稱為分布式表示(distributed representation,或 embedding),利用大規模文本中的詞彙上下文信息自動學習向量表示。我們可以用這些向量方便地計算詞彙/詞義相似度,能夠取得比傳統基於語言知識庫的方法還好的效果。也正因為如此,近年來無論是 HowNet 還是 WordNet 的學術關注度都有顯著下降,如以下兩圖所示。

中國期刊網(CNKI) 統計 HowNet 學術關注度變化趨勢

Semantic Scholar 統計 WordNet 相關論文變化趨勢

是不是說,深度學習時代以 WordNet、HowNet 為代表的語言知識庫就毫無用處了呢?實際並非如此。實際上自 word2vec 剛提出一年後,我們 [5] 以及 ACL 2015 最佳學生論文 [6] 等工作,都發現將 WordNet 知識融入到詞表示學習過程中,能夠有效提升詞表示效果。

雖然目前大部分 NLP 深度學習模型尚沒有為語言知識庫留出位置,但正由於深度學習模型 data-hungry、black-box 等特性,正使其發展遭遇不可突破的瓶頸。回顧最開始提及的張鈸院士的觀點,我們堅信 AI 未來的科學突破是建立一種同時基於知識和數據的 AI 系統。看清楚了這個大形勢,針對 NLP 深度學習模型的關鍵問題就在於,利用什麼知識,怎樣利用知識。

在自然語言理解方面,HowNet 更貼近語言本質特點。自然語言中的詞彙是典型的符號信息,這些符號背後蘊藏豐富的語義信息。可以說,詞彙是最小的語言使用單位,卻不是最小的語義單位。HowNet 提出的義原標註體系,正是突破詞彙屏障,深入了解詞彙背后豐富語義信息的重要通道。

在融入學習模型方面,HowNet 具有無可比擬的優勢。在 WordNet、同義詞詞林等知識庫中,每個詞的詞義是通過同義詞集(synset)和定義(gloss)來間接體現的,具體每個詞義到底什麼意義,缺少細粒度的精準刻畫,缺少顯式定量的信息,無法更好為計算機所用。而 HowNet 通過一套統一的義原標註體系,能夠直接精準刻畫詞義的語義信息;而每個義原含義明確固定,可被直接作為語義標籤融入機器學習模型。

也許是由於 HowNet 採用了收費授權的政策,並且主要面向中文世界,近年來 HowNet 知識庫有些淡出人們的視野。然而,對 HowNet 逐漸深入理解,以及最近我們在 HowNet 與深度學習模型融合的成功嘗試,讓我開始堅信,HowNet 語言知識體系與思想必將在深度學習時代大放異彩。

我們的嘗試

最近我們分別探索了詞彙表示學習、新詞義原推薦、和詞典擴展等任務上,驗證了 HowNet 與深度學習模型融合的有效性。

1. 融合義原知識的詞彙表示學習

論文:Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.

下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2017_sememe.pdf 

源碼:https://github.com/thunlp/SE-WRL

我們考慮將詞義的義原知識融入詞彙表示學習模型中。在該工作中,我們將 HowNet 的義原標註信息具象化為如下圖所示的 word-sense-sememe 結構。需要注意的是,為了簡化模型,我們沒有考慮詞義的義原結構信息,即我們將每個詞義的義原標註看做一個無序集合。

HowNet 義原標註知識的 word-sense-sememe 結構示意圖

基於 word2vec 中的 Skip-Gram 模型,我們提出了 SAT(sememe attention over target model)模型。與 Skip-Gram 模型只考慮上下文信息相比,SAT 模型同時考慮單詞的義原信息,使用義原信息輔助模型更好地「理解」單詞。具體做法是,根據上下文單詞來對中心詞做詞義消歧,使用 attention 機制計算上下文對該單詞各個詞義(sense)的權重,然後使用 sense embedding 的加權平均值表示單詞向量。在詞語相似度計算和類比推理兩個任務上的實驗結果表明,將義原信息融入詞彙表示學習能夠有效提升詞向量性能。

SAT(Sememe Attention over Target Model)模型示意圖

2. 基於詞彙表示的新詞義原推薦

論文:Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.

下載:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2017_sememe.pdf 

源碼:https://github.com/thunlp/Sememe_prediction

在驗證了分布式表示學習與義原知識庫之間的互補關係後,我們進一步提出,是否可以利用詞彙表示學習模型,對新詞進行義原推薦,輔助知識庫標註工作。為了實現義原推薦,我們分別探索了矩陣分解和協同過濾等方法。

矩陣分解方法首先利用大規模文本數據學習單詞向量,然後用已有詞語的義原標註構建「單詞-義原」矩陣,通過矩陣分解建立與單詞向量匹配的義原向量。當給定新詞時,利用新詞在大規模文本數據得到的單詞向量推薦義原信息。協同過濾方法則利用單詞向量自動尋找與給定新詞最相似的單詞,然後利用這些相似單詞的義原進行推薦。義原推薦的實驗結果表明,綜合利用矩陣分解和協同過濾兩種手段,可以有效進行新詞的義原推薦,並在一定程度上能夠發現 HowNet 知識庫的標註不一致現象。該技術將有利於提高 HowNet 語言知識庫的標註效率與質量。

3. 基於詞彙表示和義原知識的詞典擴展

最近,我們又嘗試了利用詞語表示學習與 HowNet 知識庫進行詞典擴展。詞典擴展任務旨在根據詞典中的已有詞語,自動擴展出更多的相關詞語。該任務可以看做對詞語的分類問題。我們選用在社會學中享有盛名的 LIWC 詞典(Linguistic Inquiry and Word Count)中文版來開展研究。LIWC 中文版中每個單詞都被標註層次化心理學類別。我們利用大規模文本數據學習每個詞語的分布式向量表示,然後用 LIWC 詞典單詞作為訓練數據訓練分類器,並用 HowNet 提供的義原標註信息構建 sememe attention。實驗表明,義原信息的引入能夠顯著提升單詞的層次分類效果。

基於 Sememe Attention 的詞典擴展模型

ps. 值得一提的是,這三份工作都是本科生(牛藝霖、袁星馳、曾祥楷)為主完成的,模型方案都很簡單,但都是第一次投稿就被 ACL、IJCAI 和 AAAI 錄用,也可以看出國際學術界對於這類技術路線的認可。

未來展望

以上介紹的三項工作只是初步驗證了深度學習時代 HowNet 語言知識庫在某些任務的重要作用。以 HowNet 語言知識庫為代表的人類知識與以深度學習為代表的數據驅動模型如何深度融合,尚有許多重要的開放問題亟待探索與解答。我認為以下幾個方向深具探索價值:

目前的研究工作仍停留在詞法層面,對 HowNet 知識的應用亦非常有限。如何在以 RNN/LSTM 為代表的語言模型中有效融合 HowNet 義原知識庫,並在自動問答、機器翻譯等應用任務中驗證有效性,具有重要的研究價值。是否需要考慮義原標註的結構信息,也值得探索與思考。

經過幾十年的精心標註,HowNet 知識庫已有相當規模,但面對日新月異的資訊時代,對開放域詞彙的覆蓋度仍存在不足。需要不斷探索更精準的新詞義原自動推薦技術,讓計算機輔助人類專家進行更及時高效的知識庫標註工作。此外,HowNet 義原知識庫規模宏大、標註時間跨度長,難免出現標註不一致現象,這將極大影響相關模型的效果,需要探索相關算法,輔助人類專家做好知識庫的一致性檢測和質量控制。

HowNet 知識庫的義原體系是專家在不斷標註過程中反思總結的結晶。但義原體系並非一成不變,也不見得完美無瑕。它應當隨時間變化而演化,並隨語言理解的深入而擴展。我們需要探索一種數據驅動與專家驅動相結合的手段,不斷優化與擴充義原體系,更好地滿足自然語言處理需求。

總之,HowNet 知識庫是進入深度學習時代後被極度忽視的一片寶藏,它也許會成為解決 NLP 深度學習模型諸多瓶頸的一把鑰匙。在深度學習時代用 HowNet 搞事情,廣闊天地,大有可為!

以上是清華大學劉知遠老師的總結,他帶我們討論了在深度學習時代用 HowNet 做研究與提升模型效果的方法。機器之心以前也關注過 HowNet,在語知科技董強老師的專訪中,我們向讀者展現了知網知識庫的結構、概念的表徵方法以及如何應用到分詞與相似度的計算中。此外,語知也向我們介紹了如何簡單地調用知網知識庫以幫助開發者與研究者實現更好的性能。

參考文獻:

知網官方介紹:http://www.keenage.com/zhiwang/c_zhiwang.html

劉群, 李素建. 基於《知網》的詞彙語義相似度計算. 中文計算語言學 7, no. 2 (2002): 59-76.

朱嫣嵐, 閔錦, 周雅倩, 黃萱菁, 吳立德. 基於 HowNet 的詞彙語義傾向計算. 中文信息學報 20, no. 1 (2006): 16-22.

Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111-3119. 2013.

Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. A unified model for word sense representation and disambiguation. In EMNLP, pp. 1025-1035. 2014.

Rothe, Sascha, and Hinrich Schütze. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. In ACL, 2015.

Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.

Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.

Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.

本文為機器之心轉載,轉載請聯繫原作者獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 清華劉知遠:教你用HowNet在深度學習時代搞事情(附論文下載)
    本文為大家解讀什麼是HowNet,並且可以用HowNet在深度學習時代做些什麼。2017年12月底,清華大學張鈸院士做了一場題為《AI科學突破的前夜,教授們應當看到什麼?》的精彩特邀報告。他認為,處理知識是人類所擅長的,而處理數據是計算機所擅長的,如果能夠將二者結合起來,一定能夠構建出比人類更加智能的系統。
  • 清華大學劉知遠:在 NLP 領域「做事」兼「發聲」
    而除了在學術領域有所貢獻外,劉知遠更為人熟悉的另一個身份是「知乎達人」。在劉知遠的不少高質量回答中,他在深入淺出回答技術問題時頻頻引經據典,旁徵博引,充分展現了他的學術和文學涵養。作為自然語言處理、深度學習、機器學習的優秀回答者,從 2013 年開始玩知乎的他,累積關注者超過 25000 人,收穫了 22206 次贊同,包括 3666 次感謝和 11109 次收藏。
  • 對話清華NLP實驗室劉知遠:NLP搞事情少不了知識庫與圖神經網絡
    在這一年中,清華大學副教授劉知遠和他所在的清華自然語言處理實驗室同樣在這個領域做出了很多成果,他們關注如何結合深度神經網絡與大型知識庫,並期望構建更多魯棒及可解釋性的自然語言理解系統。在這一篇文章中,機器之心採訪了劉知遠教授,他向我們介紹了 NLP 在過去一年的重要發展歷程,以及實驗室的重要研究成果與方向。
  • 資料| 2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全...
    作者簡介  · · · · · · 劉知遠,清華大學計算機系副教授、博士生導師。林衍凱,微信模式識別中心研究員,博士畢業於清華大學計算機系,主要研究方向包括表示學習、信息抽取與自動問答。目前已在人工智慧、自然語言處理等領域的頂級國際會議IJCAI,AAAI,EMNLP,ACL發表相關論文多篇,Google Scholar引用數超過2,000。曾獲清華大學學術新秀、百度學者等榮譽。
  • ...2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全英文)
    本書對於自然語言處理和人工智慧基礎研究具有一定的參考意義,既適合專業人士了解自然語言處理和表示學習的前沿熱點,也適合機器學習、信息檢索、數據挖掘、社會網絡分析、語義Web等其他相關領域學者和學生作為參考讀物。閱讀提示:本書為全英文。作者簡介 · · · · · ·劉知遠,清華大學計算機系副教授、博士生導師。
  • 知其然,更要知其所以然:第一屆Open HowNet學術研討會重磅來襲!
    HowNet秉承還原論思想,認為詞義概念可以用更小的語義單位來描述,這種語義單位被稱為「義原」(Sememe),是最基本的、不易於再分割的意義的最小單位。2017年以來,清華大學自然語言處理實驗室等研究團隊開始探索HowNet在深度學習時代的應用價值,並在詞彙語義表示、句子語義表示、詞典擴展等任務上得到了驗證。
  • 清華大學人工智慧研究院知識中心成立儀式隆重舉行,發布知識計算...
    李涓子老師被聘任為知識中心主任,董振東先生被聘任為知識中心學術顧問。清華大學人工智慧研究院院長張鈸院士首先代表清華大學人工智慧研究院致辭。他指出知識是人類智能的重要特徵,我們已經進入後深度學習時代,讓計算機擁有大規模、高質量的形式化知識,是實現安全可信人工智慧的重要使命,知識表示、獲取、推理與計算將是新一代人工智慧研究面臨的核心問題。
  • 清華大學劉知遠:自然語言理解到底難在哪兒?
    清華大學計算機科學與技術系劉知遠助理教授最近發表了關於NLP的文章,對於我們深入、全面了解NLP非常有幫助。現在戳右邊連結上新智元小程序  了解更多!   在微博和知乎上關注自然語言處理(NLP)技術的朋友,應該都對#NLP太難了#、#自然語言理解太難了#兩個話題標籤不陌生,其下匯集了各種不僅難煞計算機、甚至讓人也發懵的費解句子或歧義引起的笑話。
  • 深度強化學習入門到精通--資料綜述
    其中,感知解決what,深度學習已經超越人類水平;決策解決how,強化學習在遊戲和機器人等領域取得了一定效果;認知解決why,知識圖譜、因果推理和持續學習等正在研究。強化學習,採用反饋學習的方式解決序貫決策問題,因此必然是通往通用人工智慧的終極鑰匙。
  • 推薦|知乎大V、清華劉知遠「自然語言處理訓練營」
    理由一: 清華劉知遠主講,校內選不上的爆款課 本訓練營的主講老師為清華大學副教授劉知遠,劉老師是真正的學術大咖,已在ACL、IJCAI、AAAI等人工智慧領域著名國際期刊和會議發表相關論文30餘篇,Google Scholar統計引用超4600次,承擔多項國家自然科學基金,
  • 計算語言學與深度學習
    2014年11月,在一場紅迪網(Reddit)在線提問(Ask Me Anything,AMA)活動中,欣頓(Geoffrey Hinton)說:「我認為接下來的五年裡最激動人心的領域將是真正理解文本和視頻。如果這五年裡我們無法讓機器自動瀏覽YouTube視頻並能夠講述視頻中發生的事情,那麼我會非常失望。
  • 李宏毅:1 天搞懂深度學習(附思維導圖)
    「《1 天搞懂深度學習》,300 多頁的 ppt,臺灣李宏毅教授寫的,非常棒。不誇張地說,是我看過最系統,也最通俗易懂的,關於深度學習的文章。」① 通過SlideShare 的連結(需科學上網):https://www.slideshare.net/tw_dsconf/ss-62245351?
  • 深度強化學習專欄 —— 2.手撕DQN算法實現CartPole控制
    上面的動畫是本篇文章要達到的效果:一開始杆子不能穩定的倒立,經過一會的訓練(自我學習),杆子可以穩定的倒立。這篇文章繼續上文深度強化學習專欄 —— 1.研究現狀中最後提到的使用深度強化學習實現倒立擺的前奏。本節我們從DQN(Deep Q-Network)算法開始說起,會經歷閱讀論文、手撕算法、最後實現CartPole倒立幾個過程。
  • CPU、作業系統、編譯器全自主寫,劉知遠點讚
    簡歷主人是清華計算機系本科生周聿浩同學,他順利拿到直博名額,清華劉知遠老師也表示讚賞。  最近,一個來自福州的男生突然火了,原因是知乎上一個熱帖《清華大學計算機專業本科的這位同學是什麼水平?》:  https://www.zhihu.com/question/345718537  提問者說,他在微博上看到清華劉知遠教授的一條微博,對劉教授口中這個優秀同學產生了興趣:  我看到微博很多人都說很牛逼,連劉知遠老師都稱讚,但是我好像不怎麼能體會到(估計是我自身水平太低了),能有人做一個形象的比喻嗎?
  • 劉知遠:知識指導的自然語言理解
    在2019年6月的集智-凱風複雜系統論壇中,劉知遠老師就知識指導的自然語言理解展開了一系列討論:先介紹了自然語言處理的基本概念,然後是以深度學習為代表的數據驅動的自然語言,再將知識引入到深度學習模型中,知識+數據雙向驅動的自然語言處理。本文內容源於劉知遠老師的講座內容,經授權發布。講座錄播時長21分鐘,地址見文末。
  • MXNet設計筆記之:深度學習的編程模式比較
    筆記的思想不局限於MXNet,也不局限於深度學習,無論對深度學習初學入門還是對高階提升,都具有很好的參考價值。本文是第一篇設計筆記的譯文,深入討論了不同深度學習庫的接口對深度學習編程的性能和靈活性產生的影響。市面上流行著各式各樣的深度學習庫,它們風格各異。那麼這些函數庫的風格在系統優化和用戶體驗方面又有哪些優勢和缺陷呢?
  • 清華大學孫茂松:NLP 面臨的三大真實挑戰
    自然語言處理方向:孫茂松、張家俊、何曉冬、萬小軍、劉知遠 機器學習方向:顏水成 認知神經基礎方向:宋森 智能信息檢索與挖掘:趙鑫 整個研討分為兩部分,首先由清華大學孫茂松教授做引導報告《自然語言處理面臨的三大真實挑戰》,
  • 清華大學將舉辦計圖深度學習研討會
    2020年3月20日,清華大學圖形學實驗室發布並開源了深度學習框架 —— 計圖(Jittor)。為促進我國人工智慧的發展和開源深度學習生態的構建,特舉辦計圖深度學習研討會,旨在提供一個系列舉辦的論壇,展示深度學習最新的研究成果,交流Jittor框架的進展和應用。第一次計圖深度學習研討會將於2020年5月30日舉行。
  • 微軟How-Old.net中文版來了!幕後黑科技揭秘
    PC用戶訪問:http://cn.how-old.net/手機用戶掃碼:我們起初期望大約會有50人左右來試用,結果很快就有有超過3萬5千人試用,我們看見整個事情由此迅速展開。為了向開發者展示如何利用微軟Azure雲服務輕鬆快速地開發智能應用,我們在Azure上用新發布的人臉識別APIs為2015年微軟BUILD開發者大會第二天的主題演講搭建了http://how-old.net網站。
  • 3 分鐘搞懂深度學習到底在深什麼
    答案是:不,建構一套深度學習的網絡,其實沒有想像中困難,只要看完這篇文章,就能夠有基本的了解,再搭配網絡資源自學一下,甚至就可以開始建立自己的深度學習網絡。如果你想要深度學習「深度學習」,又能快速搞懂它到底在深什麼東西,看這篇文章就對了,那我們開始囉!