臺灣大學黃意堯:深度殘差網絡下的弱監督關係抽取 | EMNLP 2017

2020-11-25 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:在今年的 EMNLP 2017 上,臺灣大學黃意堯與加州聖塔芭芭拉大學 (UCSB)William Wang 教授有一篇合作論文被錄用。受雷鋒網 AI 科技評論邀請,黃意堯撰寫了關於這篇論文的研究歷程,以供學習與參考。雷鋒網 AI 科技評論做了不改動原意的編輯與修改,將繁體字轉換為簡體,並將一些臺灣常用表述轉換為大陸的通用說法。

論文名稱:Deep Residual Learning for Weakly-Supervised Relation Extraction

論文地址:https://arxiv.org/abs/1707.08866

近年來,越來越多人關注在關係抽取 (Relation Extraction) 的題目上,大部分的研究集中在使用更複雜、更結構化的神經網絡,並測量在 SemEval 2010 的關係抽取資料庫上。

但在這個資料庫上,最大的問題是數據太少,總共只有 10,717 條數據,導致大部分的模型參數不能太多,要不然會有過度擬合 (over fitting) 的現象發生。

相較於另一個資料庫,NYT dataset,總共有 695,059 條數據,採用半監督式學習:distant supervision 來收集數據。這個資料庫有足夠大的數量來進行大型神經網絡的實驗。

出於這個動機,本文進行大型神經網絡在 NYT dataset 資料庫的實驗,並提出深度殘差網絡來解決 distant supervision 帶來的噪聲幹擾。

問題探討

我們使用卷積神經網絡來進行關係抽取,取經於計算機視覺與深度卷積神經網絡的成功,我們透過增加層數,來增加神經網絡的參數,希望可以幫助關係抽取的學習。結果如圖一:

圖一、各式卷積網絡的結果

但我們卻發現,使用 9 層卷積神經網絡 (CNN-9) 的效果,並沒有單層 (CNN) 的好。這個結果跟過往的經驗違背。我們猜測原因是,在 distant supervision 的數據裡面,有太多錯誤標籤的數據,這些數據帶來太多的噪聲,而這些噪聲隨著越深層的神經網絡而被放大,導致 9 層卷積神經網絡 (CNN-9) 的結果比單層 (CNN) 更差。為了解決這個問題,我們使用殘差網絡,來幫助網絡的特徵學習。

殘差網絡在半監督式學習的應用

基於上面的實驗,我們知道淺層網絡在 distant supervision 的資料庫中,能學習到比較好的特徵。於是,我們設法讓淺層網絡的特徵,可以跳躍傳遞至深層網絡。

圖二,殘差網絡在關係抽取的架構

如圖二所示,我們使用擁有兩層卷積網絡的殘差區塊,將淺層網絡的特徵傳到較深層的網絡。特過這樣的設計,我們可以依照資料庫的大小,來堆迭網絡架構,讓網絡可以選擇較不被噪聲影響的那層網絡特徵來進行關係分類。

結果

這篇文章,提出一種,解決 distant supervision 噪聲對大型網絡影響的方法。在表一,我們可以看到,9 層的殘差網絡,與 state-of-the-art(PCNN+ATT) 的模型,有差不多的結果,並在高順位候選的關係上,有更棒的效能。證明,利用殘差網絡,可以在 distant supervision 的資料庫中,抽取更有用的特徵。

表一,殘差網絡與其它網絡結構的結果比較

結論

本篇文章提供讀者、研究人員可以在 distant supervision 的資料庫使用大型深度神經網絡。但要注意,此種半監督式學習的噪聲,會影響到實驗結果。利用殘差網絡可以解決這樣的問題,這篇文章在關係抽取的研究上,證明其結果。

文章趣事

本篇文章是我在加州聖塔芭芭拉大學 (UCSB),做交換學生時完成的作品。其實聖塔芭芭拉是一個充滿陽光,很美的海灘,每天都可以衝浪、曬太陽、玩水,加上當時課選很少的情況下,覺得生活過得太安逸,決定加入當時新晉教授 William Wang 的實驗室,學習相關領域的知識。但沒想到,我是實驗室前 5 個進來的學生,導致所有知識都要靠自己來,自己吸收與學習。幸運的是,教授有許多時間,跟我討論題目,但另一方面,我也好像在過一個博士班學生單獨奮鬥的生活,每天死盯著論文,想理解關係抽取到底發生了什麼事。很幸運地,最後我把文章完成,並且順利的投上 EMNLP。很感謝 William Wang 教授願意給我機會,與我進行大量的討論。William Wang 教授在知識圖譜的相關研究很厲害,有興趣的同學,可以申請到他的實驗室進行研究。

原文:https://arxiv.org/abs/1707.08866

項目:https://github.com/darrenyaoyao/ResCNN_RelationExtraction

William Wang 教授主頁:https://www.cs.ucsb.edu/~william


AI慕課學院近期推出了《NLP工程師入門實踐班:基於深度學習的自然語言處理》課程!

三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經驗相授;算法+實踐,搭配典型行業應用;隨到隨學,專業社群,講師在線答疑!

課程地址:http://www.mooc.ai/course/427

加入AI慕課學院人工智慧學習交流QQ群:624413030,與AI同行一起交流成長


雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    最近幾年深度學習引發的人工智慧浪潮席捲全球,在網際網路普及帶來的海量數據資源和摩爾定律支配下飛速提升的算力資源雙重加持下,深度學習深入影響了自然語言處理的各個方向,極大推動了自然語言處理的發展。來到 2019 年的今天,深度學習的諸多局限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠數據標註與算力投入無法解決本質問題。
  • 何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial
    殘差網絡在模型表徵方面不存在直接的優勢(只是實現重複參數化)但是,殘差網絡允許逐層深入地表徵所有的模型殘差網絡使得前饋式/反向傳播算法非常順利進行在極大程度上,殘差網絡使得優化較深層模型更為簡單殘差網絡未直接處理學習深度模型過程中存在的歸納問題但是,更深+更薄是一種好的歸納手段另外,對於殘差網絡的詳細介紹可見何凱明博士在
  • 深度學習故障診斷方法:殘差收縮網絡
    殘差收縮網絡是應用在機械故障診斷領域的一種深度學習方法,其實是殘差網絡、注意力機制和軟閾值化的結合。
  • 靈魂拷問:殘差網絡解決了什麼,為什麼有效?
    深度傳送門引言殘差網絡是深度學習中的一個重要概念。這篇文章將簡單介紹殘差網絡的思想,並結合文獻討論殘差網絡有效性的一些可能解釋。動機: 深度神經網絡的「兩朵烏雲」神經網絡具有非常強的表達能力,並且免去了繁重的特徵工程,在BP算法提出以及算力逐漸提升的背景下,逐漸受到了研究人員和開發者的青睞。
  • 深入探討:殘差網絡解決了什麼,為什麼有效?
    引言殘差網絡是深度學習中的一個重要概念。這篇文章將簡單介紹殘差網絡的思想,並結合文獻討論殘差網絡有效性的一些可能解釋。以下是本文的概覽:1.動機: 深度神經網絡的「兩朵烏雲」神經網絡具有非常強的表達能力,並且免去了繁重的特徵工程,在BP算法提出以及算力逐漸提升的背景下,逐漸受到了研究人員和開發者的青睞。在展開文章前,首先以_前饋神經網絡_為例,定義一下神經網絡。
  • 萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文
    8月16日,在北京中科院軟體研究所舉辦的「自然語言處理前沿技術研討會暨EMNLP2017論文報告會」上,邀請了國內部分被 EMNLP 2017錄用論文的作者來報告研究成果。整場報告會分為文本摘要及情感分析、機器翻譯、信息抽取及自動問答、文本分析及表示學習四個部分。感覺上次的 CCF-GAIR 參會筆記寫的像流水帳,這次換一種方式做筆記。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    上次,《自然語言處理在 2017 年有哪些值得期待的發展?》中,我們已經講到,2016 年是深度學習大潮衝擊 NLP 的一年,通過去年一年的努力,深度學習在 NLP 領域已經站穩了腳跟。其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機互動時代。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    然而,自監督如何應用於處理圖數據結構的圖卷積網絡(GCNs)的問題卻很少被探索。作為圖神經網絡中的重要分支,GCNs解決了CNNs無法處理非歐幾裡德結構數據(如社交網絡、推薦系統上抽取的圖譜等)的問題,能從拓撲結構網絡中有效提取空間特徵。因此,GCNs成為了當前機器學習領域的研究熱點之一。
  • ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡
    一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。這兩個階段以CAM [1] 的出現為劃分節點。在CAM這個方法出現之前,WSSS的研究呈現百花齊放的狀態。這種狀態體現在兩個方面:弱監督標籤的多樣性:這一階段大家選擇的弱監督標籤是多樣化的。
  • 獲獎無數的深度殘差學習,清華學霸的又一次No.1 | CVPR2016 最佳...
    :陳圳、章敏、Blake 摘要在現有基礎下,想要進一步訓練更深層次的神經網絡是非常困難的。我們提出了一種減輕網絡訓練負擔的殘差學習框架,這種網絡比以前使用過的網絡本質上層次更深。我們明確地將這層作為輸入層相關的學習殘差函數,而不是學習未知的函數。同時,我們提供了全面實驗數據,這些數據證明殘差網絡更容易優化,並且可以從深度增加中大大提高精度。我們在ImageNet數據集用152 層--比VGG網絡深8倍的深度來評估殘差網絡,但它仍具有較低的複雜度。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    :從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術信息抽取是從文本數據中抽取特定信息的一種技術。抽取文本數據中的名詞短語、人名、地名等都是文本信息抽取,當然,文本信息抽取技術所抽取的信息可以是各種類型的信息。本文介紹從文本中提取有限種類語義內容的技術。此信息提取過程(IE)將嵌入文本中的非結構化信息轉換為結構化數據,例如用於填充關係資料庫以支持進一步處理。命名實體識別(NER)的任務是找到文本中提到的每個命名實體,並標記其類型。
  • NLP:關係抽取到底在乎什麼
    2、構建了關係預訓練模型,基於關係抽取的實體遮蔽的對比學習框架: 能幫助模型更好地的藉助上下文信息和實體類型信息,避免「死記硬背」實體表面表述; 提高了多個場景下神經關係抽取模型的有效性和魯棒性,特別是在低資源場景下; Q1: 關係抽取為什麼主要利用「上下文信息」和「實體信息」?
  • ...最大的實體關係抽取數據集!清華大學自然語言處理團隊發布 FewRel
    例如,從句子「馬雲創辦了阿里巴巴」中,可以抽取出關係事實(馬雲, 創始人, 阿里巴巴),其中馬雲和阿里巴巴被稱為實體(entity),而創始人則是他們的關係(relation)。關係抽取是知識獲取的重要途徑,對於理解自然語言和理解世界知識意義重大。 目前的關係抽取模型面臨著一個極大的問題:訓練數據不足。
  • 複雜場景下的複雜缺陷檢測方法——深度學習算法綜述
    矩視智能成立於 2017 年 10 月,專注於機器視覺,主要通過 SaaS 雲平臺幫助提升工廠機器視覺開發、升級效率。弭寶瞳為中國人民大學計算機博士,曾在奇虎 360 任產品經理、研發工程師。3.2破損缺陷檢測[2]在電氣化鐵路等工業中,有許多關係著安全的重要固件,這些固件的缺陷檢測十分重要。本文作者利用深度卷積神經網絡(DCNNs)結合SSD,Yolo等網絡方法構建了一個從粗到細的級聯檢測網絡,包括固件的定位、缺陷檢測與分類,其實現流程如下圖所示。
  • 入門| 獻給新手的深度學習綜述
    深度學習方法 深度神經網絡在監督學習中取得了巨大的成功。此外,深度學習模型在無監督、混合和強化學習方面也非常成功。 4.1 深度監督學習 監督學習應用在當數據標記、分類器分類或數值預測的情況。 4.2 深度無監督學習 當輸入數據沒有標記時,可應用無監督學習方法從數據中提取特徵並對其進行分類或標記。LeCun 等人 (2015) 預測了無監督學習在深度學習中的未來。Schmidthuber(2014) 也描述了無監督學習的神經網絡。
  • 深度學習在醫學影像中的研究進展及發展趨勢
    隨後,Chen H等人提出RED-CNN降噪模型,將殘差網絡與卷積自動編碼器相結合,通過跳躍連接形成深度網絡,實現低劑量CT圖像的降噪。同年,Kang E等人首先對低劑量CT圖像進行方向小波變換,然後將深度卷積神經網絡模型應用於小波係數圖像,實現降噪,並使用殘差學習架構加快網絡訓練速度,提高性能。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    基於機器學習的抽取方法以數據是否被標註作為標準進行分類,包括:有監督的關係抽取算法、半監督的關係抽取算法、無監督的關係抽取算法[12],如圖8所示。    同樣地,傳統機器學習的關係抽取方法選擇的人工特徵工程十分繁雜,而深度學習的關係抽取方法通過訓練大量數據自動獲得模型,無需人工提取特徵。深度學習經過多年的發展,逐漸被研究者應用在實體關係抽取方面,有監督的關係抽取方法主要有流水線學習(Pipeline)和聯合學習(Joint)兩種。
  • 頂會見聞系列:ICML 2018(下),能量、GAN、監督學習、神經網絡
    當前的模型(如深度神經網絡)需要大量的能量。從物理能量(建模)思想出發推導出深度學習的一個貝葉斯形式,能帶來(現實中)更能源高效的模型。最終這些事情都能一一連接起來。這裡有一個他關於該主題的另一個報告,與 ICML 的這個報告相比有較大不同。
  • 從基本組件到結構創新,67頁論文解讀深度卷積神經網絡架構
    關鍵詞:深度學習,卷積神經網絡,結構,表徵能力,殘差學習,CNN通道提升1、引言機器學習(ML)算法屬於人工智慧(AI)的一個特殊領域,該領域無需明確編程,通過學習數據之間的潛在關係並做出決策,從而將智能賦予計算機。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    各種深度學習的模型已經被用於 SR ,如圖所示。ResNet 學習殘差而不是徹底的映射,已被 SR 模型廣泛採用,如上圖(a)所示。其中,殘差學習策略可以大致分為兩種類型,即全局和局部殘差學習。局部殘差學習類似於 ResNet 的殘差學習,用於緩解不斷增加的網絡深度引起的退化問題並提高學習能力。實踐中,上述方法都是通過快捷連接(通常有小常數因子的縮放)和逐元素加法操作實現的。區別在於,前者直接連接輸入圖像和輸出圖像,而後者通常在不同深度的網絡中層之間添加多個快捷方式。