原文:7 Applications of Deep Learning for Natural Language Processing
作者:Jason Brownlee
翻譯:無阻我飛揚
摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。
自然語言處理領域正在從統計方法轉變為神經網絡方法。
自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,一個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。
在這篇文章中,你會發現7個有趣的自然語言處理任務,也會了解深度學習方法取得的一些進展。
1、 文本分類
2、 語言建模
3、 語音識別
4、 字幕生成
5、 機器翻譯
6、 文檔摘要
7、 問答(Q&A)
我試圖專注於你可能感興趣的各種類型的終端用戶問題,而不是更多的學術或語言的子問題,在有些方面深度學習已經做的很好,如詞性標註,程序分塊,命名實體識別,等等。
每個示例提供了一個問題描述,示例,對演示方法和結果的文檔引用。大多數參考來自2015年的Goldberg’s 的優秀的NLP研究人員深度學習入門文獻。
你有沒有一個深度學習中最受歡迎的NLP應用沒有被列出?請在下面的評論中告訴我。
1、 文本分類
給出一個文本實例,預測一個預定義的類標籤。
文本分類的目的是對文檔的標題或主題進行分類。
—575頁,自然語言處理的基礎統計,1999
一個流行的分類示例是情感分析,類標籤代表源文本的情感基調,比如「積極的」或「消極的」。
下面是另外三個例子:
垃圾郵件過濾,將電子郵件文本分類為垃圾郵件或正常郵件。
語言識別,對源文本的語言進行分類。
體裁分類,對小說故事體裁進行分類。
此外,這個問題可以用某種方式加以解決,將多個類分配給一個文本,即所謂的多標籤分類。如給一個源tweet預測多個#標籤。
更多相關主題的內容,請參見:
Scholarpedia的文本分類
維基百科的文檔分類
下面是3個文本分類深度學習的論文例子:
爛片評論的情感分析
文本分類的DUCR結構方法,2015
亞馬遜產品評價的情感分析,IMDB電影評論和新聞文章的主題分類。
有效使用詞序進行基於卷積神經網絡的文本分類,2015
影評的情感分析,將句子分類為主觀的和客觀的,分類問題類型,產品評論的情感及更多。
基於卷積神經網絡的句子分類,2014
2、 語言建模
語言建模真的是更有趣的自然語言問題的一個子任務,特別是那些在其它輸入條件下的語言模型。
…問題是根據給出的前一個詞來預測下一個詞。這項任務是語音或光學字符識別的基礎,也用於拼寫矯正,手寫識別和統計機器翻譯。
—191頁,統計自然語言處理基礎,1999.
除了對語言建模的學術興趣外,它也是許多自然語言處理體系結構深度學習的一個重要組成部分。
一個語言模型學習詞與詞之間的概率關係,這樣以來,新的詞的序列可以生成與源文本統計學上一致的文本內容。
單獨地,語言模型可用於文本或語音生成;例如:
生成新的文章標題。
生成新的句子,段落,或文件。
生成一個句子的建議延續的句子。
有關語言建模的更多信息,請參見:
維基百科上的語言模型
循環神經網絡的不可思議的效用
生成基於模型的合成文本語音,第十講,牛津,2017
下面是深度學習語言建模(僅有)的一個例子:
英語課文、書籍和新聞文章的的語言模型。
一種神經概率語言模型,2003
3、 語音識別
語音識別是理解說了什麼的問題。
…語音識別的任務是將包含自然語言話語的語音映射成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並藉助一個分類模型實現語音到字母的轉譯。)
—458頁,深度學習,2016.
給定作為音頻數據的文本的發聲,該模型必須生成可讀的文本。
自動給出自然語言的處理,這個問題也可被稱為自動語音識別(ASR).
語言模型用於創建以音頻數據為條件的文本輸出。
包含的一些例子:
錄製語音。
為電影或電視節目創建文本字幕。
開車的時候向無線電發出指令。
有關語音識別的更多信息,請參見:
維基百科上的語音識別
以下是用於語音識別深度學習的3個例子:
英語語音到文字。
連接時間分類:循環神經網絡的不分段標籤序列數據,2006。
深度循環神經網絡的語音識別,2013。
用於語音識別的卷積神經網絡結構的研究和優化技術,2014。
4、字幕生成
字幕生成是描述圖像內容的問題。
給定一個數字圖像,如一張圖片,生成關於這個圖像內容的文本描述。
語言模型用於創建符合圖像內容的字幕。
描述一個場景的內容。
為照片創建標題。
描述一個視頻。
這不僅僅是對聽障者的一個應用程式,還可以為圖像和視頻數據生成可讀的文本,將來可以搜索,比如在網上。
以下是字幕生成深度學習的3個例子:
為照片生成字幕。
展示,出席和講述:視覺注意力的神經圖像字幕生成,2016.
展示和講述:神經圖像字幕生成器,2015.
為視頻生成字幕。
片段到片段—視頻到文本
5、機器翻譯
機器翻譯是把源文本從一種語言轉換成另外一種語言的問題。
…機器翻譯,文本或語音從一種語言到另外一種語言的自動翻譯,它是NLP最重要的應用。
—463頁,
考慮到深度神經網絡的使用,該領域被稱為神經機器翻譯。
在一個機器翻譯任務中,輸入由一些語言中的一系列符號組成,電腦程式必須把它轉換成另一種語言中的符號序列。這通常用於自然語言,比如從英語到法語的翻譯。深度學習最近開始對這種任務產生重要影響。
—98頁,
語言模型用於輸出翻譯以後語言的目標文本,以源文本為基礎。
將一個文本文件從法語翻譯成英語。
將西班牙音頻翻譯成德語文本。
將英語文本翻譯成義大利音頻。
更多關於神經機器翻譯,請參見:
維基百科上的神經機器翻譯。
下面是機器翻譯深度學習的3個例子:
從英語到法語的文本翻譯。
基於神經網絡的片段到片段的學習
聯合學習對齊和翻譯的神經機器翻譯
基於循環神經網絡組合語言和翻譯模型,2013
6、文檔摘要
文檔摘要是對創建的文本文檔進行簡短描述的任務。
如上所述,語言模型用於基於完整文檔的摘要輸出。
一些文檔摘要的例子:
為一篇文檔創建一個標題。
為一篇文檔創建一個摘要。
更多關於這個話題的信息,請參見:
維基百科上的自動摘要
深度學習已經被應用於自動文本摘要(成功)了嗎?
下面是文檔摘要深度學習的3個例子:
新聞文章中的句子摘要
一個抽象概括的神經注意力模型
使用片段到片段RNN(循環神經網絡)的抽象總結及更多
通過提取句子和單詞的神經摘要,2016
7、 問答
回答問題就是給定一個主題,如文本文件,回答關於這個主題的一個特定問題。
…問答系統嘗試回答用戶以問題形式表述的疑問,它返回適當的短語,如位置,人員,或者日期。例如,問題是總統甘迺迪為什麼被刺殺?可能回答的短語是:Oswald(「兇手」奧司華德)。
—377頁,
維基百科上的問答
更多關於問答的信息,請參見:
關於維基百科文章的問答
關於新聞文章的問答
關於醫療記錄的問答
下面是問答深度學習的3個例子:
新聞文章中的問答
閱讀和理解的機器教學
回答關於Freebase文章的一般知識性問題
用多列卷積神經網絡回答關於Freebase的問題
回答給定文件的事實型問題
深度學習回答選擇句
擴展閱讀
如果你需要更深入的了解,本節提供更多用於NLP深度學習應用程式的資源。
自然語言處理的優先神經網絡模型
從零(幾乎)開始自然語言處理,2011
自然語言處理深度學習,實踐概述,牛津,2017
深度學習或神經網絡的NLP問題已成功應用?
深度學習能像自然語言處理在視覺和語音處理領域一樣取得類似的突破嗎?
2017年10月14日,SDCC 2017之大數據技術實戰線上峰會即將召開,邀請圈內頂尖的布道師、技術專家和技術引領者,共話大數據平臺構建、優化提升大數據平臺的各項性能、Spark部署實踐、企業流平臺實踐、以及實現應用大數據支持業務創新發展等核心話題,七位大牛與你相聚狂歡,詳情查看所有嘉賓和議題,以及註冊參會