清華大學豈凡超:義原的介紹和義原的自動推薦 | AI 研習社第 76 期...

2020-12-16 雷鋒網

義原(Sememe)在語言學中是指最小的不可再分的語義單位,而知網(HowNet)則是最著名的義原知識庫。近些年來,包括知網在內的語言知識庫在深度學習模型中的重要性越來越顯著,然而,這些人工構建的語言知識庫往往面臨新詞不斷出現的挑戰。知網也不例外,而且其只為中、英文詞標註了義原,這限制了它在其他語言的 NLP 任務中的應用。

近日,在雷鋒網 AI 研習社公開課上,清華大學計算機系在讀博士豈凡超就分享了採用機器學習的方法為中文新詞自動推薦義原,並進一步為其他語言的詞語推薦義原。公開課回放視頻網址:http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

豈凡超:清華大學計算機系在讀博士,導師是孫茂松教授,主要研究方向為自然語言處理,其研究工作曾在 EMNLP 等發表。

分享主題:義原的介紹和義原的自動推薦

分享提綱:

義原和知網介紹

中文新詞的義原推薦 [IJCAI 2017, ACL2018]

跨語言詞彙的義原推薦 [EMNLP 2018]

雷鋒網 AI 研習社將其分享內容整理如下:

今天跟大家分享義原的介紹和義原的自動推薦 。

義原和知網介紹

首先講一下義原的基本概念。在自然語言處理中,我們會對語言中不同的語義單位進行分析和處理,語義單位包括從比較大的篇章、段落到比較小的句子、短語和詞。對一般的自然語言處理任務來說,最小的語義單位可能就是詞了,但實際上比詞更小的語義單位是存在的——義原。

根據語言學家的定義,義原是最小的不可分的語義單位。有的語言學家認為,包括詞在內的所有概念的語義都可使用一個有限的義原集合去表示。而義原是比較隱含的語義單位,所以人們需要利用已經構建好的義原知識庫才能夠獲取一個詞所對應的義原。

提到義原知識庫,最著名的就是知網(HowNet),它是由董振東和董強兩位先生花費了十幾年時間,通過人工標註而成的義原知識庫,大概使用了 2000 多個義原標註了約 10 萬個中文/英文詞或短語。左邊的圖就是知網中對一個詞的義原標註的例子。

【關於更多對知網的詞的案例講解,請回看視頻 00:02:40 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

知網對詞進行了更細粒度的義原標註,因而被廣泛用於各項自然語言處理的任務中。比如 2017 年的 Improved Word Representation Learning with Sememes 這篇論文,通過引入義原可以解決詞義消歧的問題,並進一步更細緻地捕捉到詞與詞之間的關係來學習更好的詞向量。另一例子是今年的一篇論文 Language Modeling with Sparse Product of Sememe Experts,它將義原作為我們稱之為「專家」的信息引入語言模型中,也可以更好地預測到一個詞出現後下一個詞以怎樣的方式出現,在義原層面又有一些怎樣的關係。

實際上,上世紀 90 年代知網就已經發布,在零幾年的時候非常熱門,相關的論文也比較多。

【關於兩篇論文及其他應用的詳細講解,請回看視頻 00:04:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

剛剛我們也提到兩位語言學家花費了十幾年的時間為詞標註義原,然而,每年都有新詞不斷出現,同時也需要不斷去更新、糾正以及完善義原標註體系,而人工的方式非常耗時耗力,所以我們很自然地想到用機器學習來為新詞自動標註義原,這是我們做義原預測主要的 motivation。

中文新詞的義原推薦 [IJCAI 2017, ACL2018]

關於義原預測,我們組最早有一篇文章,定義了這項任務並提出了兩個效果還不錯的模型。我首先介紹一下這篇文章,它的核心思路是根據與待標註目標詞相似的已標註詞的義原標註信息來預測義原,其基本假設是:相似詞的義原標註也相似。基於這個思路,這篇文章提出了兩個基於推薦系統的模型:第一個是基於協同過濾(collaborative filtering )的方法 SPWE;第二個是基於矩陣分解(matrix factorization )的方法 SPSE。需要補充的是,這兩個方法都做了簡化,一是忽略了義原的層次結構;二是將詞的多義性忽略掉了。

【關於這篇文章的兩個模型的具體介紹,請回看視頻 00:09:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

但是,這篇文章還有很多問題沒有考慮到,比如剛剛提到的這兩個模型只考慮了外部信息——預訓練的詞向量,而詞向量是根據外部語料得到的。此外,它們對於語料中出現頻率比較少的詞的預測效果不好,另外這種方法也無法為語料中沒有出現的詞推薦義原。

因此我們進行了第二項工作,本次工作考慮到大部分中文詞都是合成詞——詞最終的意義跟組成這個詞的各個字的意義緊密相關,比如「鐵匠」這個詞的合成性就非常明顯。由於這項工作利用的是詞的內部信息,它對於低頻詞來說是非常有用的。在這個工作中我們提出了字增強的義原預測(Character-enhanced Sememe Prediction )模型,將詞的內部信息和從語料中學到的外部信息(詞向量)都用上

【關於這篇文章的兩個模型的具體介紹,請回看視頻 00:09:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

在利用詞內部信息的模型中,我們用到的第一個方法是 Sememe Prediction with Word-to-Character Filtering(SPWCF),它利用了詞到字的過濾來做義原預測,它認為詞有三個位置(Begin、 Middle、End),首先統計某個字在某個位置出現時對應的詞擁有某個義原的概率,將其作為該字在該位置出現時詞擁有該義原的置信度,再把待預測詞中各個位置的字所對應的義原置信度相加起來,得到當前待預測詞的義原置信度,從而根據義原置信度的排序實現義原預測。

第二個方法是 Sememe Prediction with Character and Sememe Embeddings (SPCSE),這一方法採用了類似 SPSE 的矩陣分解的思路,但是用詞中某個字的字向量作為詞向量的代表參與分解,來得到義原向量。

【關於 SPWCF 和 SPCSE 這兩個義原預測方法的具體講解,請回看視頻 00:23:18 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

下面講一下實驗,我們在這個實驗中的設置有:

第一,義原篩選,去掉知網中出現頻率低於 5 次的義原,剩餘 1400 個比較常見的義原;

第二,選了知網中 6 萬個高頻詞;

第三,訓練集、開發集 和測試集分別為 48000、6000 和 6000;

第四,詞向量和字向量的學習用的語料是 Sogou-T。

第五,用 GloVe 的方法學習詞向量,用 2015 年的一篇文章 Cluster-based Character Embeddings 來學習字向量

第六,做義原預測評價的指標是 Mean Average Precision (MAP)

其他設置大家可以看一下論文進行了解。

實驗結果如下:

【關於實驗結果的講解,請回看視頻 00:37:00 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

這裡對我們的這兩個工作做一下小結:

首先,我們定義了義原預測任務並對該任務做了簡化。

在第一篇文章中,我們用了推薦系統中兩個基本、主流的思路——協同過濾和矩陣分解做義原預測。

在第二篇文章中,我們考慮到第一篇文章只使用了外部信息,而沒有用詞的內部信息,於是將詞的內部信息用到了義原預測中。

我們將來的研究方向包括使用義原的結構,將義原擴展到更加通用性的應用,以及更充分地利用詞的內部信息——因為第二個工作使用的方法還是相對比較簡單。另外,我們的代碼都開源在 Github(https://github.com/thunlp/sememe_prediction, https://github.com/thunlp/Character-enhanced-Sememe-Prediction )上了,大家可以去下載。

跨語言詞彙的義原推薦 [EMNLP 2018]

接下來講一下我們在跨語言義原預測方面所做的工作。這項工作的 motivation 是:大多數語言其實沒有像知網這樣的義原知識庫。剛剛我們提到,義原的標註需要「專家」信息,往往需要耗費很大的時間和人力成本,因此我們想要利用機器學習方法自動進行跨語言義原預測。在這項工作中,我們方法的主要思路是,將現有的知網義原知識庫遷移到其他語言。

由於跨語言的義原預測是一個全新的任務,對我們來說存在一些難度,比如直接將知網翻譯成其他語言是行不通的,因為不同語言詞的語義不完全一致。

我們在這個工作中採用的方法分為兩個大模塊:

第一個模塊是雙語詞向量學習模塊其目標是學習在同一個語義空間的源語言和目標語言的詞向量,其中源語言是指已知義原標註的語言,目標語言則是不知道義原標註的語言。該模塊又可以分成三個子模塊:單語詞向量的學習、雙語詞向量的對齊以及將義原信息融入源語言詞向量中,單語詞向量學習採用了經典的 Skip-gram 方法;雙語詞向量對齊採用了種子詞典作為跨語言信號,此外還借鑑了 Bilingual Lexicon Induction From Non-Parallel Data With Minimal Supervision 這篇文章中的匹配機制(Matching Mechanism);義原信息的融入子模塊中,分別採用了基於近義詞(即義原標註相近的詞)詞向量靠近的方法 CLSP-WR 和基於矩陣分解的方法 CLSP-SE。

第二個模塊使目標語言的義原預測模塊。

【關於這兩大模塊的具體講解,請回看視頻 00:42:05 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

實驗的數據集如下:

【關於實驗數據集的講解,請回看視頻 00:52:20 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

跨語言義原預測主實驗結果:

【關於跨語言義原預測主實驗結果的講解,請回看視頻 00:54:15 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

然後我們也做了兩個子實驗。第一個是做了雙語詞典翻譯的實驗,因為模型中第一個模塊是學習在一個空間的雙語詞向量,很自然可以去做這樣中譯英、英譯中的翻譯實驗。第二個子實驗是單語詞相似度計算的實驗。從兩項實驗結果中可以看到,我們的模型比基線方法 BiLex 直接學習中文或英文的雙語詞向量的效果都要好一些。同時,這兩個子實驗的結果也可以解釋我們的模型為什麼能夠預測到更好的的義原。

關於實驗,有兩個具體的案例:

【關於兩個具體的案例的講解,請回看視頻 00:57:40 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

最後總結一下,我們第三個工作也是定義了一個新的任務——為跨語言詞做義原推薦,提出了基於雙語詞向量學習的方法,並通過實驗證明了我們方法的有效性。

將來的工作中,第一,我們會考慮到詞的多義性,這是在我們現在的工作中被忽略掉的一個方面;第二是將義原的結構信息利用起來;第三是在其他語言上做測試,我們這項工作是在英文上做測試,因為英文已有語言標註,而其他的語言則需要我們人工去做標註。我們工作的數據和代碼都放在了 Github(https://github.com/thunlp/Character-enhanced-Sememe-Prediction )上,大家可以下載使用。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網(公眾號:雷鋒網) AI 研習社社區(https://club.leiphone.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 專欄 | 清華大學劉知遠:在深度學習時代用HowNet搞事情
    我們的嘗試最近我們分別探索了詞彙表示學習、新詞義原推薦、和詞典擴展等任務上,驗證了 HowNet 與深度學習模型融合的有效性。1. 融合義原知識的詞彙表示學習為了實現義原推薦,我們分別探索了矩陣分解和協同過濾等方法。矩陣分解方法首先利用大規模文本數據學習單詞向量,然後用已有詞語的義原標註構建「單詞-義原」矩陣,通過矩陣分解建立與單詞向量匹配的義原向量。當給定新詞時,利用新詞在大規模文本數據得到的單詞向量推薦義原信息。協同過濾方法則利用單詞向量自動尋找與給定新詞最相似的單詞,然後利用這些相似單詞的義原進行推薦。
  • AAAI、IJCAI和ACL錄用三名清華本科生成果,華人NLP最傑出HowNet成功融入DL模型
    文章分別探索了詞彙表示學習、新詞義原推薦、和詞典擴展等任務上,驗證了HowNet與深度學習模型融合的有效性。最近我們分別探索了詞彙表示學習、新詞義原推薦、和詞典擴展等任務上,驗證了HowNet與深度學習模型融合的有效性。1. 融合義原知識的詞彙表示學習
  • 清華大學韓旭:神經關係抽取模型 | AI研習社71期大講堂
    雷鋒網AI研習社按:關係抽取是自然語言處理中的重要任務,也是從文本中挖掘知識的基本途徑之一。深度學習在關係抽取中的研究在近幾年取得了廣泛關注,其中基於遠距離監督、帶有注意力機制的神經網絡模型成為解決問題的主要方法。在本次公開課中,講者將梳理神經模型在關係抽取中的發展脈絡,並分享相關領域的最新工作進展。
  • 清華大學人工智慧研究院知識中心成立儀式隆重舉行,發布知識計算...
    知識中心在成立儀式上還發布了體現國內領先水平的清華大學知識計算開放平臺(http://ai.tsinghua.edu.cn/kirc/),內容涵蓋語言知識、常識知識、世界知識和科技知識庫,包括:HowNet 是由董振東先生、董強先生父子畢三十年之功建立的一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間、以及概念所具有的屬性之間的關係為基本內容的語言和常識知識庫。知網 HowNet 秉承還原論思想,認為詞義概念可以用更小的語義單位來描述,這種語義單位被稱為「義原」(Sememe),是最基本的、不易於再分割的意義的最小單位。
  • 尹立博:Python 全局解釋器鎖與並發 | AI 研習社第 59 期猿桌會
    而為了能利用多核多線程的的優勢,同時又要保證線程之間數據完整性和狀態同步,Python 官方的、最廣泛使用的解釋器——CPython 往往會採取最簡單的加鎖的方式——全局解釋器鎖(GIL)。然而,GIL 的設計有時會顯得笨拙低效,並對語言的並發性帶來嚴重限制,但是此時由於內置庫和第三方庫已經對 GIL 形成了巨大的依賴,想改變 GIL 反而變得困難了。
  • 清華大學柯沛:閒聊對話中的句式控制 | AI研習社65期大講堂
    AI研習社按:在閒聊對話領域,對話策略研究是近幾年的熱門話題,實現對話策略需要引入一些要素,讓聊天機器人變得更加擬人化,以便能跟用戶更好地交互。來自在近日的 AI 研習社大講堂上,柯沛給我們介紹了這項具有開創性的研究成果。
  • ACL 2020 清華大學 THUNLP 系列解讀
    清華大學自然語言處理實驗室(THUNLP)由孫茂松教授領導,主要從事中文信息處理、社會計算和知識圖譜研究,實驗室 「二劉老師」(劉洋、劉知遠)是我國NLP領域的青年代表,劉洋教授在機器翻譯領域造詣頗深,劉知遠副教授則聚焦語言理解與知識計算。ACL 2020 上,THUNLP實驗室有什麼新的研究進展?
  • Paper 研習社本周論文推薦精選 | 第二期
    「本周論文推薦精選」是 Paper 研習社推出的全新欄目,展現社友們在研習論文的過程中,推薦自己所閱讀到的優秀論文,幫助大家一起學習、討論每個領域最新、最精彩的學術論文。論文連結:https://www.ijcai.org/proceedings/2019/0514.pdf推薦人:琴•福克納 (清華大學信息與通信工程,Paper 研習社特約作者)②#計算機視覺#【
  • Laura:AI 字幕翻譯經驗分享 | AI研習社第 52 期猿桌會
    近日,在雷鋒網 AI 研習社公開課上,上海外國語大學英語專業碩士畢業、目前長期從事專職英語翻譯的 Laura  就從自己英語翻譯的專業背景出發,從實戰的角度,分享 AI 字幕翻譯的技巧,希望幫助更多同學事半功倍地做好字幕翻譯。
  • 北京城市氣象研究所範水勇:數值天氣預報介紹 | AI 研習社87期大...
    分享嘉賓:範水勇,中國氣象局北京城市氣象研究所,副研究員,主要研究方向是數值天氣預報系統開發和應用公開課回放地址:http://www.mooc.ai/open/course/578?雷鋒網 AI 研習社將其分享內容整理如下:眾所周知,大氣系統是很複雜的,主要具有這幾種特徵:非線性、多尺度、多圈層和多種強迫和反饋,此外,大氣系統還是動力、物理和化學的綜合。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    雷鋒網 AI 研習社編者按:語義分析(semantic parsing)是人工智慧的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近年來,隨著人工智慧的發展,語義分析也越發重要。
  • ...AI研習社定製雙肩包和保溫杯?邀請朋友學習「CMU 深度學習課程...
    自 AI 研習社「小組」產品上線以來,收穫了很多社區用戶的支持,同時也得到了大量的意見和建議。不過,我們也從用戶的反饋中了解到,不少開發者在工作和學習的過程中都會遇到自己不擅長處理的問題並苦於無人求助。所以,為了幫助社區用戶認識更多有技術有想法的朋友,為了讓社區用戶更好地相互學習,AI 研習社決定發起「邀朋友,送福利」活動 —— 自本文發布之時起,到 11 月 26 日(下周一)晚 12 點為止,小組邀請榜單前 15 名用戶將會獲得 AI 研習社提供的大量福利獎品。
  • AAAI2020必讀的10篇「知識圖譜(Knowledge Graph)」相關論文和代碼
    隨著AAAI2020的到來,專知小編整理了最新10篇關於知識圖譜的論文,來自清華大學、中科大、北航、中山大學、UCL、Facebook、騰訊、阿里巴巴等,包含義原知識圖譜、知識圖譜表示學習、知識遷移、知識圖譜層次表示、常識知識圖譜補全等,請大家查看!
  • 竹間智能翁嘉頎:人機互動技術探索 | AI 研習社 60 期猿桌會
    近日,在雷鋒網 AI 研習社公開課上,竹間智能 CTO 翁嘉頎分享了人機互動技術探索。公開課回放視頻網址:http://www.mooc.ai/open/course/587?分享主題:人機互動技術探索分享提綱:情感計算、意圖、主題、上下文、中文 NLP 應用、多輪對話、算法與數據的關係雷鋒網 AI 研習社將其分享內容整理如下:今天講的主題是人機互動技術探索,我會著重講這些技術的應用以及怎樣解決當前的問題