人工智慧之自然語言處理初探

2021-01-07 人人都是產品經理

編輯導讀:自然語言處理是人工智慧的一個細分領域,是一個龐大的系統的工程。本文將從自然語言處理的簡介、句法分析、發展現狀、話語分割、知識體系、指代消解六個方面展開分析,希望對你有幫助。

最近在梳理人工智慧的一個細分領域自然語言處理相關知識點。隨著查閱的資料越來越多,在梳理的過程中,也越來越發現自己的無知。

雖然自然語言處理是人工智慧的一個細分領域,但是自然語言處理這個細分領域內,又有很多的細分領域。

自然語言處理,也是涵蓋了多個學科的一個系統化的大型工程。自然語言處理,除了包含常見的分詞、分句、分段,詞目計算、詞類標註,有限狀態自動機、隱馬爾可夫模型等基礎的計算機理論知識外,還包含了語音學、語言學、心理學、統計學、腦科學等多個領域的學科知識。

一個人不可能把自然語言處理所有的知識都全部掌握精通,也只能是找到其中的一個或幾個難點進行研究。

今天文章題目定為《人工智慧之自然語言處理初探》,似乎題目也是有點過大了。所以又取了一個子題目,叫「語義識別」。即便是這樣,在今天有限的文章描述以及PPT演示,也難以涵蓋語義識別這個領域的全部內容。

今天的文章以PPT為主線,受制於時間限制以及這個領域內容的確非常多非常深,即便是潛心鑽嚴三年,是否能真正就說掌握了自然語言處理的語義分析,誰也不敢保證。進無止境,這恐怕也是科學的魅力。

本文今天主要分為六個章節,第一章節先對自然語言處理進行簡要介紹。

主要對自然語言處理(Natural Language Processing,下文會以NLP替代)的苦命分類進行概要介紹,同時介紹一下NLP在文本和語音兩個方面的商業應用。

第二章節從發現歷程、參與的公司以及行業規模,介紹當前NLP發展現狀。

第三章,對整個NLP體系進行梳理。

第四、五、六章節主要對NLP中語義識別中的句法分析、話語分割、指代消解的基礎原理進行講述。

自然語言的理解層次,一般分為:語音分析、詞法分析、句法分析、語義分析、語用分析。

簡單來講,語音分析主要是根據音位規則,從語音流中提取出獨立的音素,再根據音位形態規則找出音節及其所對應的單詞;詞法分析主要是找出詞彙中的詞素,從而獲得其語音學的信息;句法分析,則是對句子和句子中的短語結構進行分析,發現其內存的關聯關係;語義分析是要找出單詞、結構,通過結合上下文,獲得準確的含義;語用分析,則是研究語言所處在的實際語言環境中對語言使用者所產生的實際作用。

1950年:圖靈測試、經驗語義方法、基於規則的方法。

1970年:基於統計的方法、理性語義方法。

2008年:深度學習。

2013年:Word Embeddings(Word2Vec),即將高維詞向量嵌入到一個低維空間,Neural Networks for NLP(RNN LSTM CNN)。

2014年:Seq2Seq Models,Seq2Seq模型是輸出的長度不確定時採用的模型;MachineTranslation, Structure Prediction。

2015年:Attention,把一個輸入序列表示為連續序列,解碼生成一個輸出序列,模型每一步都是自回歸的,即假設之前生成的結果都是作為生成下一個符號的額外輸入;Transformer,直接把一句話當做一個矩陣進行處理。

2018年:Memory-based Neural Network, NeuralTuringMachine。2018m, Pretrained Language Modes, ELMo,BERT。

2019年:Natural Language Generation,Reasoning, Bigger Models。

自然語言處理(NLP)正處於歷史上最好的發展時期,技術在不斷進步並與各個行業不斷融合、落地。

數據顯示,我國NLP(自然語言處理)技術市場規模持續增長,2018年我國NLP(自然語言處理)技術市場規模達到了20.6億元,同比增長52.6%。未來隨著NLP技術不斷進步,將具有大規模的市場需求和可擴展的巨大市場空間。預計2021年市場規模將達到近70億元。

NLP整個知識體系非常多。研究模式主要是對自然語言場景問題,算法如何應用到解決這些問題。即便是涉及如此多的基礎知識,目前NLP仍然面臨著許多的問題,例如:場景的困難,語言的多樣性、多變性、歧義性,使得NLP準確性受到制約。學習的困難,如何設計高效的學習模型?語料的困難,NLP應該使用什麼樣的語料?如何獲得這些語料?

對於語義識別,需要對句法進行剖析,因此剖析在問答系統、信息抽取、語法檢查中都起著非常重要的作用。

1954年1月7日,美國喬治敦大學和IBM公司首先成功地將60多句俄語自動翻譯成英語。當時的系統還非常簡單,僅包含6個語法規則和250個詞。而實驗者聲稱:在三到五年之內就能夠完全解決從一種語言到另一種語言的自動翻譯問題。但直到今天,自然語言處理別說是自動翻譯,簡單的句法分析仍然有很多要完善的空間。

「咬死了獵人的狗。」究竟是「[咬死了獵人][的狗]」還是「[咬死了][獵人的狗]」呢?如果不藉助於上下文和語境,即便是人都很難理解,更不用說使用的句法分析了。

我們通過計算,可以增加句法分析的準確性。但是否能真實反應語義,仍然有很大的發展空間。

我們可以計算布朗預料庫中每個句子的平均詞數。在其他情況下,文本可能只是一個字符流。在將文本分詞之前,需要將它分割成句子。有時可以藉助於標點體符號以及一些典型的計算機符號,例如換行符來進行對句子分隔,但對於沒有任何標點符號的文欄位落來講,人類可以藉助經驗理解裡面的內容,NLP是否也能準備分割,也是比較難的一個研究領域,還有很大的發展空間。

指代消解是NLP裡非常重要的一個細分的研究領域,應用場景非常多。例如智能對話預定酒店機票,「從天津到北京的機票多少錢?」計算機NLP後,給出一個結果,這個時候,再問「那到上海呢?」,這個就需要NLP有更深層的理解了。而現實中的對話場景,遠比這個要複雜的多,NLP是否能準確識別,就依賴於指代消解的準確度了,這直接關係到NLP的產品質量。

總結:

今天主要是對NLP中的語義識別的一個領域進行初步探索。人工智慧是一個非常大的範疇,即便人工智慧的子領域NLP,涉及的基礎研究也非常多,而且這些基礎研究短時間內也很難見效,很多公司都有業績壓力,往往出於收益,即便不是一個很完善的NLP產品,也先要推向市場。

不論是NLP應用在哪個領域,構建什麼樣的產品,解決什麼樣的現實問題,根本還是要依賴於基礎科技的研究,一個個豐富多彩的NLP產品,都是由一個個基礎功能整合而成。正所謂,不積跬步無以至千裡,不積小流無以成江海。

作者:王佳亮,中國計算機學會(CCF)會員。

本文原創@佳佳原創 發布於人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基於CC0協議

相關焦點

  • 人工智慧難點之——自然語言處理(NLP)
    (NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理——人工智慧戰略的重要方向
    人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)已成為計算機科學領域與人工智慧領域中的一個重要方向,它推動著智能時代的持續發展和突破,並越來越多地應用於各個行業。
  • 人工智慧自然語言處理技術拉動產業升級引擎
    作為未來科技發展的前沿領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、推薦引擎、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別等。其中的自然語言處理,是人工智慧領域中的一個重要方向。
  • 自然語言處理,人工智慧研究及應用的重要領域
    前者稱為自然語言理解,後者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少,但這種狀況已有所改變。要實現自然語言理解和自然語言生成是十分困難的,造成困難的根本原因是自然語言文本和對話的各個層次上,廣泛存在的各種各樣的歧義性或多義性(ambiguity)。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    NLP,即自然語言處理,就=相當於存在於機器語言和人類語言之間的翻譯,通過搭建溝通的橋梁,能夠高效實現人機交流的目的。自然語言理解的目標是理解人類的表達,包括語音表達和文本表達,側重於理解目標的實現,包括語法分析、文本閱讀;NLG則側重於如何生成自然語言的表達,包括翻譯系統、信息簡化、問答對話等。兩者相輔相成,大部分情況下,兩者會同時出現,來構築某一系統。
  • 人工智慧實踐應用——自然語言處理入門介紹
    自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。因此,自然語言處理是與人機互動的領域有關的。在自然語言處理面臨很多挑戰,包括自然語言理解,因此,自然語言處理涉及人機互動的面積。
  • 人工智慧領域專家學者論道自然語言處理技術
    通訊員 林子瀅 洪惠婷攝 東南網11月28日訊(本網記者 張立慶)人工智慧的本質是讓機器像人一樣感知世界、認知世界。以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。為促進產學研深度融合,推動自然語言處理技術進步,11月28日,中國計算機學會福州青年計算機科技論壇在福州軟體園舉行,論壇通過線上直播、線下會議方式舉行。
  • 人工智慧自然語言處理技術哪家靠譜?珍島有話說
    作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。而其中的自然語言處理,是人工智慧領域中的一個重要方向,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 讓產品更了解世界,自然語言處理掀開人工智慧新篇章
    人工智慧的不斷衍生和進化衝刷了我們對這個世界的原生認知,人類社會也在人工智慧的快速發展下迎來了智能新時代。作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。
  • 人工智慧閱卷「翻車」 其實是「翻」在了自然語言處理
    AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」
  • 人工智慧領域的關鍵核心技術:自然語言處理
    人工智慧(Artificial Intelligence,簡稱AI)作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)是AI領域的關鍵核心技術,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 投資人工智慧:自然語言處理得到回報
    【網易智能訊10月4日消息】在過去的18個月裡,Arthur Coleman在Acxiom Research的團隊已經深入地研究了一種叫做自然語言處理(NLP)的人工智慧。其中最激動人心的NLP項目叫做ABBY——她是Acxiom Research的第一個人工智慧員工。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。機器之心對文章進行了編譯,原文連結附於文末。人工智慧概述AI 指代「人工智慧」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。
  • 走進人工智慧NLP自然語言處理的世界,NLU與NLG又是什麼
    但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻…為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,並加以利用,然後能夠給人類帶來更多的方便快捷那麼,什麼是NLP自然處理人類有人類的溝通語言,比如漢語,英語,或者手語等等,這些都是人與人溝通的語言,動物有動物之間的溝通語言,當然,植物也有植物之間的溝通信息的語言
  • 獨家| 人工智慧學習篇7:自然語言處理開源框架
    01 概述自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智慧領域中的重要方向,研究實現人與計算機之間用自然語言進行有效交互的各種理論和方法。20世紀60年代,自然語言處理早期研究以機器翻譯為主,但由於理論和技術均不成熟,進展不大,且大多數自然語言處理系統都是基於複雜人工規則實現。從80年代末開始,自然語言處理引入了機器學習算法並嘗試從語料中學習統計特徵。自然語言具有稀疏性和語義性等特點,如何對字、詞、短語、句、段、篇章等結構進行有效表示,是研究自然語言處理需解決的首要問題。
  • 自然語言處理的發展簡史
    人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理既是人工智慧的核心技術,又是計算機科學和語言科學的分支學科;它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。 人工智慧作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。
  • 從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進
    詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
  • 自然語言處理(NLP)的一般處理流程!
    來自 | 知乎地址 | https://zhuanlan.zhihu.com/p/79041829作者 | mantch編輯 | 機器學習算法與自然語言處理公眾號什麼是NLP自然語言處理 (Natural Language Processing) 是人工智慧(AI)的一個子領域。自然語言處理是研究在人與人交互中以及在人與計算機交互中的語言問題的一門學科。為了建設和完善語言模型,自然語言處理建立計算框架,提出相應的方法來不斷的完善設計各種實用系統,並探討這些實用系統的評測方法。2.
  • NLP研究入門之道:自然語言處理簡介
    什麼是自然語言處理簡單地說,自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬於人工智慧的一個分支,是計算機科學與語言學的交叉學科,又常被稱為計算語言學。由於自然語言是人類區別於其他動物的根本標誌。
  • NLP(自然語言處理)掃盲
    自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,是人工智慧(AI)的一個子領域,包括:1.句法語義分析:對於給定的句子,進行分詞、詞性標記、命名實體識別和連結、句法分析、語義角色識別和多義詞消歧。