NLP 與 NLU:從語言理解到語言處理

2021-01-13 雷鋒網

本文為 AI 研習社編譯的技術博客,原標題 :

NLP vs. NLU: from Understanding a Language to Its Processing

作者 | Sciforce

翻譯 | 蘿蔔菜在種樹     編輯 | 王立魚

原文連結:

https://medium.com/sciforce/nlp-vs-nlu-from-understanding-a-language-to-its-processing-1bf1f62453c1

隨著人工智慧的進步,相關技術變得越來越複雜,我們希望現有的概念能夠包容這種變化 - 或者改變自己。同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?

在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。

值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。首先,他們都用來處理自然語言和人工智慧之間的關係。他們都試圖理解類似於語言之類的非結構化數據,而不是像統計,行為等結構化數據。然而,NLP和NLU是許多其他數據挖掘技術的對立面。


來源: https://nlp.stanford.edu/~wcmac/papers/20140716-UNLU.pdf

NLP是一個已經很成熟,已有數十年歷史的領域。在計算機科學、人工智慧、數據挖掘等領域進行交叉。NLP的最終目的是通過機器讀取、解讀、理解和感知人類語言,將某些任務用機器來代替人類來處理,包括在線聊天機器人,文本摘要生成器,自動生成的關鍵字選項卡,以及分析文本情緒的工具。

NLP的作用

NLP在廣義上來說可以指廣泛的工具,例如語音識別、自然語言識別和自然語言生成。然而,在歷史上,NLP常用於:

符號化

解析

信息提取

相似度 

語音識別

自然語言和語音生成等等

在現實生活中,NLP用於文本摘要、情感分析、主題提取、命名實體識別、詞性標註、關係提取、詞幹提取、文本挖掘、機器翻譯、自動問答、本體論、語言建模和我們可以想到的所有與語言相關的任務。

NLP技術

NLP的兩個支柱是句法分析和語義分析。

總結:NLP依靠機器學習通過分析文本語義和語法從人類語言中獲得意義。

NLP可以追溯到20世紀50年代電腦程式員開始嘗試簡單的語言輸入。NLU在20世紀60年代開始發展,希望讓計算機能夠理解更複雜的語言輸入。NLU被認為是NLP的一個子方向,主要側重於機器閱讀理解:讓計算機理解文本的真正含義。

NLU實際上做了什麼

與NLP類似,NLU使用算法將人類語音轉化為結構化本體。 然後使用AI算法檢測意圖,時間,位置和情緒等。但是,當我們查看NLU任務時,我們會驚訝地發現這建立了多少NLP概念:

NLU任務

自然語言理解是許多過程的第一步,例如分類文本,收集新聞,歸檔單個文本,以及更大規模地分析內容。NLU的實際例子包括從基於理解文本發布短命令到小程度的小任務,例如基於基本語法和適當大小的詞典將電子郵件重新發送到合適的人。更為複雜的行為可能是完全理解詩歌或小說中的新聞文章或隱含意義。

總而言之:最好將NLU視為實現NLP的第一步:在機器處理語言之前,必須首先理解它。

從其任務可以看出,NLU是NLP的組成部分,它負責人類理解某個文本所呈現的含義。與NLP最大的區別之一是NLU超越了解單詞,因為它試圖解釋和處理常見的人類錯誤,如錯誤發音或字母或單詞的顛倒。

推動NLP的理論是Noam Chomsky在1957年的「句法結構」中所設定的假設:「語言L的語言分析的基本目標是將L的句子的語法序列與不符合語法的序列分開。 這不是研究語言L的句子,而是研究語法序列的結構。」

句法分析確實用於多個任務,通過將語法規則應用於一組單詞並通過多種技術從中獲得意義來評估語言如何與語法規則保持一致:


句法分析技術介紹

然而,語法正確性或不正確性並不總是與短語的有效性相關。 想想一個無意義而又語法化的句子「colorless green ideas sleep furiously」的經典例子。更重要的是,在現實生活中,有意義的句子通常包含輕微的錯誤,並且可以被歸類為不符合語法的。人工交互允許產生的文本和語音中的錯誤通過優秀的模式識別和從上下文中添加附加信息來補償它們。這顯示了以語法為中心的分析的不平衡性以及需要更加關注多級語義。

語義分析是NLU的核心,涉及應用計算機算法來理解單詞的含義和解釋,尚未完全解決。

以下是語義分析中的一些技巧,僅舉幾例:

然而,為了完全理解自然語言,機器不僅需要考慮語義提供的字面意義,還需要考慮預期的信息,或理解文本試圖表達的內容。這個級別稱為語用分析(pragmatic analysis),它剛剛開始引入NLU / NLP技術。 目前,我們可以在一定程度上看到情緒分析:評估文本中包含的消極/積極/中立的感受。

追求創建一個能夠以人類方式與人類互動的聊天機器人的目標 - 並最終通過圖靈測試,企業和學術界正在研發更多的NLP和NLU技術。他們想到產品實現的目標應該輕鬆,無監督學習,並能夠以適當的方式直接與人們互動。

為實現這一目標,該研究分三個層次進行:

語法 - 理解文本的語法

語義 - 理解文本的字面意義

語用學 - 理解文本試圖表達的意思

不幸的是,理解和處理自然語言並不是提供足夠大的詞彙量和訓練機器那麼簡單。 如果要取得成功,NLP必須融合來自各個領域的技術:語言,語言學,認知科學,數據科學,計算機科學等。 只有結合所有可能的觀點,我們才能揭開人類語言的神秘面紗。雷鋒網雷鋒網(公眾號:雷鋒網)雷鋒網

想要繼續查看該篇文章相關連結和參考文獻?

點擊NLP 與 NLU:從語言理解到語言處理即可訪問:

今日份資源推薦:「AIS 2019」是三大國際頂級會議的全面整合。其中,「A」代表自然語言處理領域最高級別會議ACL,「I」代表國際人工智慧聯合會議IJCAI,「S」代表信息檢索國際論壇SIGIR。這三大會議代表了全球計算機、人工智慧與信息檢索領域的最新成果。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    &model=en&cpu=1&cph=0 記得我曾經讀到過這樣一段話,如果你覺得有必要回答兩次同樣的問題,那就把答案發到博客上,這可能是一個好主意。根據這一原則,也為了節省回答問題的時間,我在這裡給出該問題的標準問法:「我的背景是研究**科學,我對學習NLP很有興趣。應該從哪說起呢?」
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?對於處理NLP問題,我也研究了一段時日。這期間我需要翻閱大量資料,通過研究報告,博客和同類NLP問題的賽事內容學習該領域的最新發展成果,並應對NLP處理時遇到的各類狀況。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    哈爾濱工業大學計算機科學與技術學院教授車萬翔以「從『靜態』到『動態』詞向量」為題發表演講。詞向量的引入開啟了深度學習應用於自然語言處理的時代。相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。
  • 自然語言處理 NLP 發展簡史
    但 IBM 旗下的 Fortran 表處理語言卻未能支持符號運算的遞歸、條件表達式、動態存儲分配及隱式回收等功能。於是麥卡錫帶領由 MIT 學生組成的團隊開發了一門全新的表處理語言 LISP,賦予了程式語言更強的數學計算能力。LISP 語言後來也被稱為人工智慧的「母語」,成為早期人工智慧研究人員的程式語言。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    選自Github作者:Sebastian Ruder機器之心編譯參與:思源、曉坤自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。有沒有好奇過Siri是如何理解你說的(大部分的)話的?Siri的工作過程就是自然語言處理在實踐中應用的一個鮮活案例。NLP正在成為我們生活中不可或缺的一部分,其與機器學習、深度學習一起達成的高度遠遠優於幾年前取得的成就。在本文中我們將深入了解NLP是如何應用、如何工作的。
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    (Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬於人工智慧的一個分支,是計算機科學與語言學的交叉學科。而機器翻譯到現在仍無法與人類翻譯水平相比,由此可見NLP有多麼的複雜和困難! 02自然語言處理的發展趨勢 目前,人們主要通過兩種思路來進行自然語言處理,一種是基於規則的理性主義,另外一種是基於統計的經驗主義。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!由Phil Blunsom主講,同時邀請到多位來自DeepMind和NVIDIA的業界講師來做客座講座。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    ,對自然語言處理在大數據中扮演的角色作了探討。AGI(通用人工智慧):通用人工智慧包含人類水平的任務,它涉及到機器的持續學習。ASI(強人工智慧):強人工智慧指代比人類更聰明的機器。什麼使得系統智能化?自然語言處理知識表示自動推理機器學習NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。
  • 不是你無法入門自然語言處理(NLP),而是你沒找到正確的打開方式
    很明顯,先不提如何設計出很強勢的網絡結構,不提如何在NLP中引入基於NN的解決例如情感分析、實體識別、機器翻譯、文本生成這些高級任務,咱們首先得把語言表示這一關過了——如何讓語言表示成為NN能夠處理的數據類型。
  • 科普自然語言處理
    自然語言處理又分為自然語言理解(NLU)和自然語言生成(NLG),前者是計算機能夠理解人類自然語言的意思,後者是計算機能用自然語言來表達意圖和思想。,總體的發展趨勢是從規則到統計,從統計到深度學習的過程。