自然語言處理深度學習的7個應用

2021-01-17 CSDN

原文:7 Applications of Deep Learning for Natural Language Processing

作者:Jason Brownlee

翻譯:無阻我飛揚

摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。

自然語言處理領域正在從統計方法轉變為神經網絡方法。

自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,一個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。

在這篇文章中,你會發現7個有趣的自然語言處理任務,也會了解深度學習方法取得的一些進展。

1、 文本分類

2、 語言建模

3、 語音識別

4、 字幕生成

5、 機器翻譯

6、 文檔摘要

7、 問答(Q&A)

我試圖專注於你可能感興趣的各種類型的終端用戶問題,而不是更多的學術或語言的子問題,在有些方面深度學習已經做的很好,如詞性標註,程序分塊,命名實體識別,等等。

每個示例提供了一個問題描述,示例,對演示方法和結果的文檔引用。大多數參考來自2015年的Goldberg’s 的優秀的NLP研究人員深度學習入門文獻。

你有沒有一個深度學習中最受歡迎的NLP應用沒有被列出?請在下面的評論中告訴我。

1、 文本分類

給出一個文本實例,預測一個預定義的類標籤。

文本分類的目的是對文檔的標題或主題進行分類。

—575頁,自然語言處理的基礎統計,1999

一個流行的分類示例是情感分析,類標籤代表源文本的情感基調,比如「積極的」或「消極的」。

下面是另外三個例子:

垃圾郵件過濾,將電子郵件文本分類為垃圾郵件或正常郵件。

語言識別,對源文本的語言進行分類。

體裁分類,對小說故事體裁進行分類。

此外,這個問題可以用某種方式加以解決,將多個類分配給一個文本,即所謂的多標籤分類。如給一個源tweet預測多個#標籤。

更多相關主題的內容,請參見:

Scholarpedia的文本分類

維基百科的文檔分類

下面是3個文本分類深度學習的論文例子:

爛片評論的情感分析

文本分類的DUCR結構方法,2015

亞馬遜產品評價的情感分析,IMDB電影評論和新聞文章的主題分類。

有效使用詞序進行基於卷積神經網絡的文本分類,2015

影評的情感分析,將句子分類為主觀的和客觀的,分類問題類型,產品評論的情感及更多。

基於卷積神經網絡的句子分類,2014

2、 語言建模

語言建模真的是更有趣的自然語言問題的一個子任務,特別是那些在其它輸入條件下的語言模型。

…問題是根據給出的前一個詞來預測下一個詞。這項任務是語音或光學字符識別的基礎,也用於拼寫矯正,手寫識別和統計機器翻譯。

—191頁,統計自然語言處理基礎,1999.

除了對語言建模的學術興趣外,它也是許多自然語言處理體系結構深度學習的一個重要組成部分。

一個語言模型學習詞與詞之間的概率關係,這樣以來,新的詞的序列可以生成與源文本統計學上一致的文本內容。

單獨地,語言模型可用於文本或語音生成;例如:

生成新的文章標題。

生成新的句子,段落,或文件。

生成一個句子的建議延續的句子。

有關語言建模的更多信息,請參見:

維基百科上的語言模型

循環神經網絡的不可思議的效用

生成基於模型的合成文本語音,第十講,牛津,2017

下面是深度學習語言建模(僅有)的一個例子:

英語課文、書籍和新聞文章的的語言模型。

一種神經概率語言模型,2003

3、 語音識別

語音識別是理解說了什麼的問題。

…語音識別的任務是將包含自然語言話語的語音映射成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並藉助一個分類模型實現語音到字母的轉譯。)

—458頁,深度學習,2016.

給定作為音頻數據的文本的發聲,該模型必須生成可讀的文本。

自動給出自然語言的處理,這個問題也可被稱為自動語音識別(ASR).

語言模型用於創建以音頻數據為條件的文本輸出。

包含的一些例子:

錄製語音。

為電影或電視節目創建文本字幕。

開車的時候向無線電發出指令。

有關語音識別的更多信息,請參見:

維基百科上的語音識別

以下是用於語音識別深度學習的3個例子:

英語語音到文字。

連接時間分類:循環神經網絡的不分段標籤序列數據,2006。

深度循環神經網絡的語音識別,2013。

用於語音識別的卷積神經網絡結構的研究和優化技術,2014。

4、字幕生成

字幕生成是描述圖像內容的問題。

給定一個數字圖像,如一張圖片,生成關於這個圖像內容的文本描述。

語言模型用於創建符合圖像內容的字幕。

描述一個場景的內容。

為照片創建標題。

描述一個視頻。

這不僅僅是對聽障者的一個應用程式,還可以為圖像和視頻數據生成可讀的文本,將來可以搜索,比如在網上。

以下是字幕生成深度學習的3個例子:

為照片生成字幕。

展示,出席和講述:視覺注意力的神經圖像字幕生成,2016.

展示和講述:神經圖像字幕生成器,2015.

為視頻生成字幕。

片段到片段—視頻到文本

5、機器翻譯

機器翻譯是把源文本從一種語言轉換成另外一種語言的問題。

…機器翻譯,文本或語音從一種語言到另外一種語言的自動翻譯,它是NLP最重要的應用。

—463頁,

考慮到深度神經網絡的使用,該領域被稱為神經機器翻譯。

在一個機器翻譯任務中,輸入由一些語言中的一系列符號組成,電腦程式必須把它轉換成另一種語言中的符號序列。這通常用於自然語言,比如從英語到法語的翻譯。深度學習最近開始對這種任務產生重要影響。

—98頁,

語言模型用於輸出翻譯以後語言的目標文本,以源文本為基礎。

將一個文本文件從法語翻譯成英語。

將西班牙音頻翻譯成德語文本。

將英語文本翻譯成義大利音頻。

更多關於神經機器翻譯,請參見:

維基百科上的神經機器翻譯。

下面是機器翻譯深度學習的3個例子:

從英語到法語的文本翻譯。

基於神經網絡的片段到片段的學習

聯合學習對齊和翻譯的神經機器翻譯

基於循環神經網絡組合語言和翻譯模型,2013

6、文檔摘要

文檔摘要是對創建的文本文檔進行簡短描述的任務。

如上所述,語言模型用於基於完整文檔的摘要輸出。

一些文檔摘要的例子:

為一篇文檔創建一個標題。

為一篇文檔創建一個摘要。

更多關於這個話題的信息,請參見:

維基百科上的自動摘要

深度學習已經被應用於自動文本摘要(成功)了嗎?

下面是文檔摘要深度學習的3個例子:

新聞文章中的句子摘要

一個抽象概括的神經注意力模型

使用片段到片段RNN(循環神經網絡)的抽象總結及更多

通過提取句子和單詞的神經摘要,2016

7、 問答

回答問題就是給定一個主題,如文本文件,回答關於這個主題的一個特定問題。

…問答系統嘗試回答用戶以問題形式表述的疑問,它返回適當的短語,如位置,人員,或者日期。例如,問題是總統甘迺迪為什麼被刺殺?可能回答的短語是:Oswald(「兇手」奧司華德)。

—377頁,

維基百科上的問答

更多關於問答的信息,請參見:

關於維基百科文章的問答

關於新聞文章的問答

關於醫療記錄的問答

下面是問答深度學習的3個例子:

新聞文章中的問答

閱讀和理解的機器教學

回答關於Freebase文章的一般知識性問題

用多列卷積神經網絡回答關於Freebase的問題

回答給定文件的事實型問題

深度學習回答選擇句

擴展閱讀

如果你需要更深入的了解,本節提供更多用於NLP深度學習應用程式的資源。

自然語言處理的優先神經網絡模型

從零(幾乎)開始自然語言處理,2011

自然語言處理深度學習,實踐概述,牛津,2017

深度學習或神經網絡的NLP問題已成功應用?

深度學習能像自然語言處理在視覺和語音處理領域一樣取得類似的突破嗎?

2017年10月14日,SDCC 2017之大數據技術實戰線上峰會即將召開,邀請圈內頂尖的布道師、技術專家和技術引領者,共話大數據平臺構建、優化提升大數據平臺的各項性能、Spark部署實踐、企業流平臺實踐、以及實現應用大數據支持業務創新發展等核心話題,七位大牛與你相聚狂歡,詳情查看所有嘉賓和議題,以及註冊參會

相關焦點

  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 閒談深度學習在自然語言處理領域的5大關鍵優勢
    在自然語言處理領域,深度學習將給予最大的幫助,深度學習方法主要依靠一下這五個關鍵優勢,閱讀本文將進一步了解自然語言處理的重要深度學習方法和應用。 在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。
  • 深度學習與自然語言處理的工作概述及未來發展
    深度學習是機器學習的一個領域,研究複雜的人工神經網絡的算法、理論、及應用。自從2006年被Hinton等提出以來[1],深度學習得到了巨大發展,已被成功地應用到圖像處理、語音處理、自然語言處理等多個領域,取得了巨大成功,受到了廣泛的關注,成為當今具有代表性的IT先進技術。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    近日,在北京語言大學舉辦的第四屆語言與智能高峰論壇上,華為諾亞方舟實驗室語音語義首席科學家劉群教授高屋建瓴,細緻分析了深度學習時代NLP的已知與未知。他從自然語言處理基於規則、統計到深度學習的範式遷移出發,探討了深度學習方法解決了自然語言處理的哪些問題以及尚未解決哪些問題。
  • 深度| 深度學習概覽之自然語言處理:從基本概念到前沿研究
    選自Adit Deshpande blog作者:Adit Deshpande機器之心編譯參與:趙華龍、王宇欣、吳攀本文是 Adit Deshpande 的 Deep Learning Research Review 系列文章的第三篇,總結和解讀了深度學習在自然語言處理領域的應用。
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    復旦大學黃萱菁帶來報告《自然語言處理中的表示學習》。黃萱菁,復旦大學計算機科學技術學院教授、博士生導師。1998年於復旦大學獲計算機理學博士學位,研究領域為人工智慧、自然語言處理、信息檢索和社會媒體分析。兼任中國中文信息學會常務理事,社會媒體專委會副主任,中國計算機學會中文信息技術專委會副主任。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?自然語言處理的英文是Natural Language Processing,一般被簡寫為NLP,它實際上包括了三個方面:語音識別、自然語言理解與語音合成(有一些人把語音識別作為自然語言處理之外的技術,在本文中,我們將語音識別也包含在自然語言處理的技術範疇之內)。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    ,對自然語言處理在大數據中扮演的角色作了探討。自然語言處理知識表示自動推理機器學習NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。機器學習:建立能從經驗中進行學習的系統,也是人工智慧的一個分支。神經網絡:生物學啟發出的人工神經元網絡。
  • 如何用深度學習做自然語言處理?這裡有份最佳實踐清單
    對於如何使用深度學習進行自然語言處理,本文作者 Sebastian Ruder 給出了一份詳細的最佳實踐清單,不僅包括與大多數 NLP 任務相關的最佳實踐,還有最常見任務的最佳實踐,尤其是分類、序列標註、自然語言生成和神經機器翻譯。作者對最佳實踐的選擇很嚴格,只有被證明在至少兩個獨立的群體中有益的實踐才會入選,並且每個最佳實踐作者至少給出兩個參引。
  • 科普自然語言處理
    ,總體的發展趨勢是從規則到統計,從統計到深度學習的過程。基於自然語言處理的應用並不能在短時間內得到解決,研究者們對自然語言處理的研究喪失了信心。然而70年代,基於隱馬爾可夫模型(Hidden Markov Model,HMM)的統計方法在語音識別領域的成功,以及80年代話語分析的重大突破,使得人們重拾了信心。在有限狀態模型和經驗主義的研究方法開始興起,轉移到了對詞性標註、解析、附加模糊度和語義學的研究上。
  • 蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用
    為了更好地進行表示、推理和學習,自然語言處理涉及到了哪些方法?張民教授總結了如下內容:自然語言處理學科自身的算法和理論,規則方法,統計方法、機器學習方法及深度學習等多種方法。機器能理解人類的自然語言嗎?從廣義角度來說,真正的自然語言處理從 1950 年代的機器翻譯研究開始。但語言存在高度歧義、高度結構化的特性。
  • 用於自然語言處理的4個業務應用
    至頂網CIO與應用頻道 12月18日 編譯:你可能還沒有意識到,自然語言處理(NLP)對於企業來說已經不僅僅是一種新興的技術,它還是一種每天都在廣泛使用的技術。在線搜索、拼寫檢查——機會所有涉及語言的功能都包含自然語言處理算法。自然語言處理算法會教導計算機像人一樣使用語言。如果你從一組文檔中手動搜索信息的話,你可以查看關鍵字,就像是搜尋引擎一樣。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    •  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • AI閱卷「翻車」 其實是「翻」在了自然語言處理
    AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」
  • 運用深度學習教機器人理解自然語言
    譯者/趙屹華 審校/劉帝偉、朱正貴 責編/周建丁。在深度學習出現之前,文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。本文討論了深度學習如何用向量來表示語義,如何更靈活地表示向量,如何用向量編碼的語義去完成翻譯,以及有待改進的地方。在深度學習出現之前,我們書寫的文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。