UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享...

2020-12-06 雷鋒網

雷鋒網 AI 科技評論按:眾所周知,深度學習在多種實際應用中取得了突破,其背後的主要推動力來自於大數據、大模型及算法。在很多問題中,獲取標註準確的大量數據需要很高的成本,這也往往限制了深度學習的應用。而主動學習通過對未標註的數據進行篩選,可以利用少量的標註數據取得較高的學習準確度。因此,深度學習中的主動學習方法也成為了研究的熱點。

近期,在雷鋒網(公眾號:雷鋒網) GAIR 大講堂上,來自德州大學奧斯汀分校的在讀博士沈彥堯基於亞馬遜實習項目延伸探討了主動學習在深度學習中的應用與思考,並分享了多篇深度主動學習的 ICLR,ICML 文章。視頻回放地址:http://www.mooc.ai/course/487/learn#lesson/2671

沈彥堯,德州大學奧斯汀分校博士生,第三年在讀;清華大學電子工程系本科畢業,主要研究方向為機器學習理論及其應用,曾在亞馬遜,微軟亞研院實習。

分享主題:主動學習在深度學習中的應用與思考

分享提綱

  • 主動學習的背景介紹及研究意義

  • 主動學習相關理論

  • 主動學習在深度學習中的前沿研究及方法

  • 主動學習在深度學習中的挑戰

分享內容:

本次分享基於本人去年在亞馬遜的實習項目「基於深度主動學習的命名實體識別 Deep Active Learning for Named Entity Recognition」而展開,關於該項目的論文「Deep Active Learning for Named Entity Recognition. ICLR, 2018.Shen et al.」已被深度學習領域頂會 ICLR 2018 接收。本文基於該項目,並延伸探討了深度主動學習在各類人工智慧或者機器學習問題中扮演的角色。

主動學習的背景介紹及研究意義

主動學習和強化學習、半監督學習、在線學習類似,它們都介於監督學習和無監督學習之間,但主動學習又和該三項概念有所不同,可以藉助下方圖例來具體理解主動學習。

 

對比監督學習、半監督學習和主動學習的概念圖例,可以看到:在主動學習中,模型 (learner) 會主動向 worker 提供想標記的數據,而非由 worker 提供。下圖最後一欄中從模型 (learner) 到 worker 的藍線即為主動學習的主動部分,在該階段模型會主動甄別需要標記的數據,判斷哪些樣本值得學習,哪些不值得學習。

主動學習具有 membership query synthesis,stream-based selective sampling 和 pool-based sampling 三種情景(方法)。

pool-based sampling,顧名思義,即所有的數據均存在於一個池子中。我們的工作就是在該池子中選出一些樣本進行標記。在這樣的設定下,所有樣本都提供給模型,模型來選擇一部分樣本進行標記。在實際中,pool-based sampling 在三種方法中所使用的最多。

相較於 pool-based sampling,其他的兩種設定更類似人來學習事物的方式。

  • membership query synthesis,是指模型可以生成新的樣本,即模型可以操控樣本的生成。這類似於人在學習的過程中進行舉一反三,自己生成一些新的問題,然後通過更深入的研究新問題來提高自己的認知。

  • stream-based selective sampling,是指樣本不在池子中,而是按一定次序被模型看到,而模型需要決定是否對每個新看到的樣本進行標記。這一過程類似於人每天都在接受新的概念和定義並從中選擇出需要的內容進行專門學習,不需要的則拋棄或忘記。

概括來講,最近十多年或者二十多年來的研究中,主動學習領域大部分文章和方法主要基於 pool-based sampling,但實際上要真正進行主動學習,我們更需要模型能夠適應 membership query synthesis 和 stream-based selective sampling 這兩種和人類學習模式更為相似的情景。

註:關於名詞和公式的詳細解讀大家可以觀看回放視頻中的 Active Learning Framework 部分

在主動學習框架中,模型具有 query strategy(即判斷哪些樣本需要進行標記的方法)。在主動學習過程中,模型會持續進行上圖的循環操作,模型的準確率也會隨之不斷提高,並且通過 query strategy 的設定模型準確率可能好於隨機選取數據進行標記,當在準確率達到一定程度之後,即可停止標記。

接下來講解主動學習的一種廣泛使用的 query strategy,即基於不確定性的採樣方法(Uncertainly Sampling Methods)。它基於一個簡單概念,即當有一個分類器或者模型時,選取那些在概率上最不確定的樣本進行標註。「概率上最不確定」存在多種定義方式,最常用的幾種定義方式列在下圖中。

註:具體的各方法解讀,大家可查看回放視頻的該部分

常用的幾種定義方式包括 Least confidence、Margin(主要存在於多分類問題)、Token entropy、Sequence entropy 以及 N-best SE 等。

需要注意的是,上面提及的基於不確定性方法來採樣(Uncertainly Sampling Methods)僅是諸多主動學習經驗方法中的一種。接下來的內容中還會提及另一種(即 Query-by-Committee),另外還有基於所有點之間距離關係的一種採樣方法(選擇最具表現性的點,而非只針對每一個點來判斷它的不確定性多高)。總體而言,大家可以提出很多種類似的經驗方法。另一方面,也有很多人在進行主動學習的理論研究。下面我們就簡單了解一下這些相關理論的基本原理。

主動學習相關理論

下面來簡單介紹主動學習的相關理論。

Query-by-Committee 是一種很重要的算法,它在 1992 年被提出(前面提到的 Uncertainly Sampling Methods 也在同時期被提出)。

關於 Query-by-Committee 最初想法和基本理論,我們藉助下面這個圖例進行解釋。

線性分類的問題中,綠點和紅點為已標記的點,列出的幾條線代表可能的分類方法(這幾條線是假設空間的採樣,假設空間可由斜率連續變動的一組線表示,其中每一條線都正確的區分開了綠點和紅點)。根據 QBC 算法,當有一個新的樣本進來(圖示標記),我們隨機挑選兩條線並通過這兩個假設來判斷該點屬於哪一類(紅或綠),當兩條線得出的分類表現一致時(都分類為紅點時),就不選擇標記該點。隨後再選擇下一個樣本,這時再次隨機挑選兩條線,如果一條線預測為紅點,另一條線預測為綠點的情況出現時(即結果不一致),模型就會嘗試標記這個點(標記為紅色)並通過刪除錯誤的假設縮小假設空間(去掉那些預測為綠點的線)。

假設空間會根據這個點來淘汰很多線性分類器,該過程持續循環,即當樣本落在該區域內再選擇進行標記。假設空間的大小會逐漸變小,並最終生成一個十分準確的模型。


這裡,我們來總結主動學習理論中常用的幾種假設:首先,假設分類器是 linear separable,即存在一條可以完美分類所有樣本的線性分類器。其次,假設二分類任務而非多分類任務,第三,假設樣本沒有噪聲。第四,維持一個假設空間是可行的。

部分文獻中會對這四點中的一點進行鬆弛並研究,但是我們實際中遇到的問題屬於以上四個假設均不滿足的情況,這就導致大家更傾向於在實際中使用不確定性的採樣方法之類的經驗方法。因此,主動學習理論對於實際應用中的算法設計缺乏指導性的原因可以總結為以下三個原因:

  1. 維持一個假設空間十分難以承受

  2. 相較於假設理論常用的 stream-based selective sampling,實際中更偏向使用 pool-based sampling

  3. 實際任務分類複雜程度遠超二分類任務

主動學習在深度學習中的前沿研究及方法

以上所提及的這些問題因深度學習的到來而愈加關鍵。我們可以看到,深度學習取得明顯效果的幾個應用均具有複雜的模型和巨大的數據量,同時因模型的非線性導致維持一個假設空間十分難以承受。這些應用包括了下圖中我們最熟悉的、已經廣泛運用深度學習模型的兩類應用:CV 和 NLP。

基於以上兩種模型,近期有兩篇文章研究了在以上兩種深度學習模型中的主動學習。它們主要探討如何利用 Convolution 中學習出來的中間層來更好的選擇樣本(比如該中間層是否會提供更豐富的 embedding 信息來判斷樣本與樣本之間是否相似等)。

深度主動學習並不只包含解決以上這兩個任務,它們只是圖像和語言中最容易建模的兩種問題:它們都被建模成了簡單的分類問題。

而我們在實際應用中遇到的深度學習應用任務更加複雜,例如序列問題(sequential problems)。在複雜任務中,有兩點問題顯得尤為突出:

  1. 深度模型訓練速度很慢(預測的速度同樣慢或更慢)

  2. 此前的經驗方法是否還能在複雜的問題中繼續發揮作用?

這就引出了去年在亞馬遜的實習項目「利用深度主動學習進行命名實體識別(Named Enity Recognition, NER)」。在這個項目中,我們需要在一個序列標記任務中來驗證深度主動學習的好處。NER 問題的一個應用場景是:給出亞馬遜用戶的一段評論,利用深度學習模型自動識別出代表人、組織、地點、時間等等多類具有實體名詞意義的詞彙。研究該問題有助於機器理解網站用戶留言的含義,這也是很多 NLP 上層任務的一個基礎。我們可以想像,在收集有標註的數據集的時候,需要依靠大量的人工標註,準確的標註出正確的命名實體類別是非常耗時耗力的,這也是我們寄希望於深度主動學習能夠減少標註量的主要原因和動機。

首先,我們先了解一下在普通 NER 任務下,能夠取得最好預測結果的模型是怎樣設計的。下圖為訓練 NER 模型的一個十分流行的深度模型。該模型以 Bi-LSTM 為基礎,最後通過 CRF 來生成概率最高的預測序列。

除該典型模型之外,近幾年也出現了各種不同的模型,包括使用 Character-Level Encoder(字母級詞向量),Word-Level Encoder(詞向量),隨後使用 RNN 或者 CRF 來做最終的預測。各種不同的模型列在下圖中的表格內。

具體到本任務中,除去進行監督學習,我們的模型需要能夠迅速的對樣本進行預測和評估不確定度。為了能夠進一步加快主動學習中利用模型判斷不確定性的過程,我們進一步對深度模型進行加速,提出了一個基於 CNN-CNN-LSTM 結構的模型,即 Character-Level Encoder 和 Word-Level Encoder 我們都是用 CNN 進行學習,而最終利用 LSTM 而非 CRF 層進行預測。

如上圖所示,左邊是一個 Character-Level Embedding 模型;中間是 world-level embedding 模型;右邊是 LSTM 序列生成模型。

通過實驗,我們可以比較模型利用 CNN 作為 encoder 的效果,以及 LSTM 作為 decoder 的效果。可以看出,使用我們的 CNN-CNN-LSTM 結構顯著的提升了訓練以及預測時的速度。這對於我們使用和驗證深度主動學習算法是非常重要的。

上圖左側是在一個較小的數據集上的測試結果(句子數量較少,且預測標籤僅為 4 類);右側是在一個較大數據集上的測試結果(幾十萬句子,預測標籤 18 種)。可以看到在兩個數據集下,encoder 使用 CNN 相比 LSTM 能得到較好的速度提升。右側提升速度更為明顯,達到了將近十倍的提升速度,並且不損失精度和準確度。這裡利用 LSTM 做 decoder 的速度要優於 CRF,因為 CRF 算法的計算複雜度和標籤數量的平方呈正比,而 LSTM 只是正比於標籤數量 x 時間長度,當標籤數量多時,利用 LSTM 要優於 CRF。這也就是我們不用 CRF 來做機器翻譯的原因,其輸出可能性太多(光詞就有上萬種選擇)。

結構設計完畢之後,我們可以開始嘗試深度主動學習的方法。我們主要考慮了以下四種算法,並通過實驗驗證各自的表現:

  1. 第一種即 Least Confidence(簡稱 LC),計算預測中最大概率序列的對應概率值。

  2. 第二種,Maximum Normalized Log-Probality(MNLP),基於 LC 並且考慮到生成中的序列長度對於不確定性的影響,我們做一個 normalization(即除以每個句子的長度),概率則是用每一個點概率輸出的 log 值求和來代替。

  3. 第三種是一個基於 Disagreement 的主動學習方法,主要利用 dropout 在深度學習中的另一個作用(dropout 本來的作用是在訓練中為了讓模型 generalize 得更好)。去年 Gal et al. 的一篇文章就告訴我們,如果在做 inference 的時候也用 dropout 實際上是等價於來計算模型的不確定性的。這裡我們也就需要在做 inference 的過程中也要同時做 dropout,在得到的 M 種結果中計算有多少是不一致的。

  4. 第四種方法是基於每一個點是否具有代表性的採樣方法,除去考慮每一個點的不確定性外,通過計算樣本與樣本之間的相似度,來進一步判斷該選擇那些樣本更具有代表性。這樣的方法在大量數據的情況下需要更加有效的計算方法。我們重新把它處理成一個 submodular maximization 的問題,並利用 streaming algorithm 得到近似最優解。

  5. 第五種方法是隨機生成樣本並且標記,作為 baseline。

為了檢測剛才提及的五種算法的有效性,先做一個較簡單的檢驗。

三種顏色代表利用不同數據訓練出來的模型,隨後在所有未標記和未訓練的樣本中,利用不確定性的採樣方法(Uncertainly Sampling Methods)來計算出最不確定的 1000 個樣本和他們的分布。例如 nw 代表新聞,如果我們此前的訓練模型都未使用任何的 nw 樣本作為訓練信息(橙色模型),那麼通過不確定性的採樣方法我們就可以發現 nw 在前 1000 個不確定樣本中比例最高,這也間接證明了該算法最有效。

最終結果可以參考下圖。

註:PPT 內容錯誤,LC 應為 MNLP

首先,baseline 方法遠低於其他分類方法。在各種方法上,我們跑了多次實驗來證明 NER 上的結果準確性,每一種方法跑 10 組,圖中也將標準差畫了出來,可以看到:LC 稍微差一點,MNLP 和 BALD 最優。儘管 BALD 與 MNLP 同樣很好,但是由於在計算 BALD 的實驗中需要對每一個樣本進行 100 次的 inference,計算代價要高於簡單的不確定性的採樣方法,因此 MNLP 是更值得採取的方法。另外,我們發現在深度主動學習的問題中,基於代表性的選擇方法並沒有取得相較 LC 而言任何的提高,我們認為其中的原因主要在於在序列問題任務中,很難學習到一個非常好的表示向量,也就是說 embedding 並沒有很好的表示真正的樣本之間的相似度。所以只需要預測每一個樣本的概率的不確定性,就已經能達到很好的效果了。

我們簡單介紹一下其他的幾篇關於深度主動學習的工作。在上述討論中提到的在 Inference 階段利用 dropout 可以估計模型的不確定性是 ICML 2017 的一篇文章,主要側重於深度模型本身的特點。另一篇 NIPS 2017 的文章其研究重點在於主動學習上,通過利用兩個 deep network 來模仿從假設空間中採樣這一過程,不斷更新這兩個 deep network,將更新後的 deep network 認定為兩個採樣假設,依次判斷樣本需不需要被標記。這相當於 QBC 算法的一個變種,並利用了深度模型的強標示性。這些相關文章的具體題目和作者信息可參考 ppt 和視頻。

下面,我們再簡單回顧主動學習的基本框架。可以看出,我們現在針對的主要是第三種的 pool-based sampling,那麼有沒有針對另外兩種的研究呢?

近期有研究人員提出利用增強學習來模擬主動學習選擇樣本的過程,把選擇樣本進行標記看作是增強學習中的行為:標記或者不標記。ICML2017 的這篇文章就是用增強學習的 agent 來模擬主動學習選擇樣本的過程。ICLR2018 的這篇文章中,作者考慮在一個更為複雜的任務中,利用增強學習生成更有價值的問題的方法。這兩篇文章均屬於主動學習基本框架中的另外兩種情景。

主動學習在深度學習中的挑戰

最後一部分來介紹主動學習在深度學習中的挑戰。在一些傳統,定義得比較好的任務中,我們需要更快的訓練過程和更快的 Inference,而其中 inference 速度更為重要。因為在實際的序列任務中,訓練其實是相對較快的。而我們在沒有標記的句子中去判斷哪些句子更加重要這就比較困難。例如在機器翻譯中每翻譯一個句子是遠低於訓練一個句子,因為進行 inference 的過程是非並行的,這是深度主動學習需要研究的一個方面。

第二種就是主動學習和生成模型的結合,也就是剛才看到的三種模型框架,第一種是模型可以主動生成樣本,目前這一方面點研究很少且挑戰巨大。

第三種是優化,Optimization 是任何任務中都十分重要的一個環節,但還尚不清楚設計 network 和優化來讓深度模型更有效的來學習任務,深度主動學習其實是在 Optimization 之上的,所以 Optimization 也是主動學習需要關注的一個問題。

在研究深度主動學習的過程中我們可以借與人進行對比來思考深度主動學習的過程。拿公認較難的機器翻譯任務來舉例,目前機器學習在做機器翻譯任務的時候,需要幾百萬句子對的數據集來訓練模型,但該種過程與人為翻譯不同:主動學習在人翻譯的過程中扮演了一個十分重要的角色。思考機器和人在翻譯過程中的學習方式,我們可以發現主動學習(包括主動深度學習)尚有較大提升空間。再舉個例子,之前的 NER 任務中,模型通過計算生成出來的概率值來表示不確定性,但人無需計算概率性的精確值,人在看到一個句子時是通過簡單的模糊判讀來決定該樣本是否需要學習,即無需進入 decoder 那一層,在之前的 encoder 階段就可做出判斷。而這一點是目前的深度主動學習還無法解決的一項巨大挑戰。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 慕課學院觀看。關注微信公眾號:AI 科技評論,可獲取最新公開課直播時間預告。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • UT Austin博士生沈彥堯:基於深度主動學習的命名實體識別 | 分享總結
    近期,在雷鋒網 GAIR 大講堂上,來自德州大學奧斯汀分校的在讀博士沈彥堯基於亞馬遜實習項目延伸探討了主動學習在深度學習中的應用與思考,並分享了多篇深度主動學習的 ICLR,ICML 文章。視頻回放地址:#lesson/2671沈彥堯,德州大學奧斯汀分校博士生,第三年在讀;清華大學電子工程系本科畢業,主要研究方向為機器學習理論及其應用,曾在亞馬遜,微軟亞研院實習。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    完成命名實體識別的雙向LSTM+CRF結構完成命名實體識別的神經網絡結構自然語言處理(幾乎)從頭開始免強度函數學習的時間點過程論文名稱:Why Gradient Clipping Accelerates Training:
  • 基礎卻不簡單,命名實體識別的難點與現狀
    當前命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。1基於規則和詞典的方法基於規則的方法多採用語言學專家手工構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。
  • NLP實戰-中文命名實體識別
    ,侵刪前言:本文章將通過pytorch作為主要工具實現不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM+CRF)來解決中文命名實體識別問題,文章不會涉及過多的數學推導,但會從直觀上簡單解釋模型的原理,主要的內容會集中在代碼部分。
  • 【NLP基礎】信息抽取(Information Extraction:NER(命名實體識別),關係抽取)
    雖然機器學習(神經或MEMM/CRF)序列模型是學術研究的規範,但NER的商業方法通常基於列表和規則的實用組合,還有少量的監督機器學習。學術界基本上以純統計序列模型為主,但工業界上處理命名體識別的方法還是會更加實際一點,監督學習加上一些規則,最為常用的方法就是通過序列,將上一個序列的結果作為輸入到下一個序列中。第一步,用高精準度的規則去標記模稜兩可的命名實體。第三步,將特定領域的詞語列表與之前識別出的命名實體進行對比。第四步,應用概率序列標註模型將之前的標籤作為特徵。
  • 中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測冠軍
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 雲知聲-中科院自動化所聯合實驗室獲CCKS2020醫療命名實體識別評測...
    會上公布了CCKS-2020技術評測結果,雲知聲-中科院自動化所語言與知識計算聯合實驗室在「面向中文電子病歷的醫療命名實體識別評測任務」中獲得冠軍,並斬獲該任務唯一技術創新獎。CCKS由中國中文信息學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結數據等領域的核心會議。
  • 「NLP-NER」什麼是命名實體識別?
    命名實體識別(Named Entity Recognition,NER)是NLP中一項非常基礎的任務。NER是信息提取、問答系統、句法分析、機器翻譯等眾多NLP任務的重要基礎工具。命名實體識別的準確度,決定了下遊任務的效果,是NLP中非常重要的一個基礎問題。作者&編輯 | 小Dream哥1 命名實體識別是什麼?
  • 中文命名實體識別算法 Lattice LSTM
    中文命名實體識別 (NER) 算法按照輸入的類型,可以大致分為 Character-based (字符) 和 Word-based (單詞) 兩種。1.前言基於字符和基於單詞的 LSTM 模型如上圖所示,中文命名實體識別
  • 基於深度學習的人臉識別技術全解
    香港中文大學教授湯曉鷗率領的團隊在全球範圍內做出了大量深度學習原創技術突破:2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自其實驗室;2011—2013 年間在計算機視覺領域兩大頂級會議 ICCV 和 CVPR 上發表了 14 篇深度學習論文,佔據全世界在這兩個會議上深度學習論文總數(29篇)的近一半。
  • 技術| 基於深度學習圖像識別的變電站監控系統
    打開APP 技術 | 基於深度學習圖像識別的變電站監控系統 發表於 2019-07-22 08:29:10 基於計算機網絡技術以及無線通信技術和視頻監控技術,研究深度學習圖像識別的變電站基建安全行為監控系統。
  • 基於深度學習的物候學識別
    點擊藍色字免費訂閱,每天收到這樣的好資訊本文闡述了基於深度學習的物候學識別,植物表型資訊簡介如下:本文採用深度學習方法對農業植物的物候階段進行識別和分類。利用表型平臺搭載的相機記錄植物的視覺數據(每半小時),並通過預訓練的卷積神經網絡系統(CNN)自動提取特徵圖像。研究發現,通過CNN模型獲得的結果與手工提取的特徵圖像相符合。
  • 利用Lattice LSTM的最優中文命名實體識別方法
    作者:Yue Zhang、Jie Yang機器之心編譯參與:路、王淑婷近日,來自新加坡科技設計大學的研究者在 arXiv 上發布了一篇論文,介紹了一種新型中文命名實體識別方法與基於字符的方法相比,該模型顯性地利用詞和詞序信息;與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。這篇論文已被 ACL 2018 接收。作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。
  • 對話UT Austin大學教授:未來5年自然語言處理最大的挑戰在哪裡?
    Mooney: 深度學習模型的「不透明性」和「黑匣子」的特徵被公認為是限制其發展和用戶的信任程度的因素。因此,一年前,美國國防高級研究計劃局(DARPA)開始了可解釋人工智慧(XAI)項目,試圖開發更透明的深度學習系統。
  • 深度學習與圖像識別 圖像檢測
    來源:http://blog.csdn.net/omenglishuixiang1234/article/details/53305842  點擊閱讀原文直接進入主要做了基於深度學習的圖像識別與檢測的研究,下面是一些整理內容1、深度學習的優勢(1)從統計,計算的角度看,DL
  • 回望2017,基於深度學習的NLP研究大盤點
    在過去的幾年裡,深度學習(DL)架構和算法在諸如圖像識別和語音處理等領域取得了世人矚目的進步。然而在最開始的時候,深度學習在自然語言處理(Natural Language Processing, NLP)領域的效果一般,但是現在已經被證實深度學習在自然語言處理領域依然能夠發揮巨大的作用。並且在一些常見的自然語言處理任務中,基於深度學習的方法已經取得了最佳的結果。
  • 每周AI應用精選:虹膜識別解決方案;基於深度學習人臉識別方案等
    方案1:虹膜識別解決方案解決方案簡介:虹膜識別技術是基於眼睛中的虹膜進行身份精準識別,應用於對身份認證安全強需求或高度保密需求的場所。2.中科虹霸提供虹膜識別算法級SDK、虹膜採集、識別儀、虹膜考勤、門禁、虹膜移動端產品。產品名稱:嵌入式虹膜識別儀 IKEMB-1000、礦用隔爆型虹膜識別儀 YBSH127、可攜式虹膜識別儀、虹膜識別手機、平板、接觸式虹膜識別儀、虹膜識別門禁、考勤一體機 、遠距離虹膜識別儀、防爆式虹膜識別儀、虹膜識別雲平臺。
  • 多因子融合的實體識別與鏈指消歧
    這種通過大數據預訓練的方式產生的語言詞彙向量表徵相比於傳統方法前進了一大步。因此基於預訓練模型的實體識別結果也提高了很多。得益於預訓練模型強大的實體識別能力,本文因此採用兩步走的方式來進行實體識別和鏈指消歧。因為實體識別的準確率足夠高,因此對後面的消歧結果產生的False Positve樣本影響會小很多,同時可以降低聯合模型的計算空間。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。NLP 的研究任務如自動摘要、指代消解(Co-Reference Resolution)、語篇分析、機器翻譯、語素切分(Morphological Segmentation)、命名實體識別、光學字符識別和詞性標註等。自動摘要即對一組文本的詳細信息以一種特定的格式生成一個摘要。指代消解指的是用句子或更大的一組文本確定哪些詞指代的是相同對象。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    實體抽取:主要是指命名實體識別(Named Entity Recognition, NER)任務,即從純文本中自動識別並提出特定類別的命名實體,如人物、組織、地點、時間、金額等。實體抽取是知識抽取中最基礎的步驟,早期主要是通過人工編寫規則的方式進行抽取,但規則不易總結、成本高且移植性差,目前主要是作為補充方法使用。