↑ 點擊上方藍字關注我們,和小夥伴一起聊技術!
自然語言處理領域正在從統計方法轉變為神經網絡方法。
自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,一個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。
在這篇文章中,你會發現7個有趣的自然語言處理任務,也會了解深度學習方法取得的一些進展(前排提示:文中所有標藍部分均可閱讀原文獲取詳情)。
文本分類
語言建模
語音識別
字幕生成
機器翻譯
文檔摘要
問答(Q&A)
我試圖專注於你可能感興趣的各種類型的終端用戶問題,而不是更多的學術或語言的子問題,在有些方面深度學習已經做的很好,如詞性標註,程序分塊,命名實體識別,等等。
每個示例提供了一個問題描述,示例,對演示方法和結果的文檔引用。大多數參考來自2015年的Goldberg’s 的優秀的NLP研究人員深度學習入門文獻 。
你有沒有一個深度學習中最受歡迎的NLP應用沒有被列出?請在下面的評論中告訴我。
文本分類
給出一個文本實例,預測一個預定義的類標籤。
文本分類的目的是對文檔的標題或主題進行分類。
—575頁,自然語言處理的基礎統計,1999
一個流行的分類示例是情感分析,類標籤代表源文本的情感基調,比如「積極的」或「消極的」。
下面是另外三個例子:
此外,這個問題可以用某種方式加以解決,將多個類分配給一個文本,即所謂的多標籤分類。如給一個源tweet預測多個#標籤。
更多相關主題的內容,請參見:
Scholarpedia的文本分類
維基百科的文檔分類
下面是3個文本分類深度學習的論文例子:
爛片評論的情感分析
文本分類的DUCR結構方法,2015
亞馬遜產品評價的情感分析,IMDB電影評論和新聞文章的主題分類。
有效使用詞序進行基於卷積神經網絡的文本分類,2015
影評的情感分析,將句子分類為主觀的和客觀的,分類問題類型,產品評論的情感及更多。
基於卷積神經網絡的句子分類,2014
語言建模
語言建模真的是更有趣的自然語言問題的一個子任務,特別是那些在其它輸入條件下的語言模型。
…問題是根據給出的前一個詞來預測下一個詞。這項任務是語音或光學字符識別的基礎,也用於拼寫矯正,手寫識別和統計機器翻譯。
—191頁,統計自然語言處理基礎,1999.
除了對語言建模的學術興趣外,它也是許多自然語言處理體系結構深度學習的一個重要組成部分。
一個語言模型學習詞與詞之間的概率關係,這樣以來,新的詞的序列可以生成與源文本統計學上一致的文本內容。
單獨地,語言模型可用於文本或語音生成;例如:
生成新的文章標題。
生成新的句子,段落,或文件。
生成一個句子的建議延續的句子。
有關語言建模的更多信息,請參見:
下面是深度學習語言建模(僅有)的一個例子:
英語課文、書籍和新聞文章的的語言模型。
一種神經概率語言模型,2003
語音識別
語音識別是理解說了什麼的問題。
…語音識別的任務是將包含自然語言話語的語音映射成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並藉助一個分類模型實現語音到字母的轉譯。)
—458頁,深度學習,2016.
給定作為音頻數據的文本的發聲,該模型必須生成可讀的文本。
自動給出自然語言的處理,這個問題也可被稱為自動語音識別(ASR).
語言模型用於創建以音頻數據為條件的文本輸出。
包含的一些例子:
錄製語音。
為電影或電視節目創建文本字幕。
開車的時候向無線電發出指令。
有關語音識別的更多信息,請參見:
以下是用於語音識別深度學習的3個例子:
字幕生成
字幕生成是描述圖像內容的問題。
給定一個數字圖像,如一張圖片,生成關於這個圖像內容的文本描述。
語言模型用於創建符合圖像內容的字幕。
包含的一些例子:
描述一個場景的內容。
為照片創建標題。
描述一個視頻。
這不僅僅是對聽障者的一個應用程式,還可以為圖像和視頻數據生成可讀的文本,將來可以搜索,比如在網上。
以下是字幕生成深度學習的3個例子:
機器翻譯
機器翻譯是把源文本從一種語言轉換成另外一種語言的問題。
…機器翻譯,文本或語音從一種語言到另外一種語言的自動翻譯,它是NLP最重要的應用。
—463頁,統計自然語言處理基礎,1999.
考慮到深度神經網絡的使用,該領域被稱為神經機器翻譯。
在一個機器翻譯任務中,輸入由一些語言中的一系列符號組成,電腦程式必須把它轉換成另一種語言中的符號序列。這通常用於自然語言,比如從英語到法語的翻譯。深度學習最近開始對這種任務產生重要影響。
—98頁,深度學習,2016.
語言模型用於輸出翻譯以後語言的目標文本,以源文本為基礎。
包含的一些例子:
將一個文本文件從法語翻譯成英語。
將西班牙音頻翻譯成德語文本。
將英語文本翻譯成義大利音頻。
更多關於神經機器翻譯,請參見:
下面是機器翻譯深度學習的3個例子:
從英語到法語的文本翻譯。
基於神經網絡的片段到片段的學習,2014
從英語到法語的文本翻譯。
聯合學習對齊和翻譯的神經機器翻譯,2014
從英語到法語的文本翻譯。
基於循環神經網絡組合語言和翻譯模型,2013
文檔摘要
文檔摘要是對創建的文本文檔進行簡短描述的任務。
如上所述,語言模型用於基於完整文檔的摘要輸出。
一些文檔摘要的例子:
更多關於這個話題的信息,請參見:
維基百科上的自動摘要。
深度學習已經被應用於自動文本摘要(成功)了嗎?
下面是文檔摘要深度學習的3個例子:
問答
回答問題就是給定一個主題,如文本文件,回答關於這個主題的一個特定問題。
…問答系統嘗試回答用戶以問題形式表述的疑問,它返回適當的短語,如位置,人員,或者日期。例如,問題是總統甘迺迪為什麼被刺殺?可能回答的短語是:Oswald(「兇手」奧司華德)。
—377頁,統計自然語言處理基礎,1999
包含的一些例子:
更多關於問答的信息,請參見:
關於維基百科文章的問答
關於新聞文章的問答
關於醫療記錄的問答
下面是問答深度學習的3個例子:
擴展閱讀
如果你需要更深入的了解,本節提供更多用於NLP深度學習應用程式的資源。
原文:7 Applications of Deep Learning for Natural Language Processing
作者:Jason Brownlee
翻譯:無阻我飛揚