5分鐘了解什麼是自然語言處理技術

2021-01-07 虎博科技

*本文約3000字,閱讀大約需要5分鐘。

自然語言處理(Nature Language Processing,NLP)被譽為「人工智慧技術皇冠上的明珠」,一方面表明了它的重要性,另一方面也顯現出了它的技術難度。但NLP並不像語音識別、圖像識別等人工智慧技術一樣為人熟知,接下來的5分鐘,我們來快速了解NLP技術,感受它的魅力。

NLP是與自然語言的計算機處理有關的技術統稱,為了更好地理解,我們把「自然語言處理」拆分成為兩部分:

1、自然語言——人和人之間書面或口語交流的形式

2、處理——計算機對數據進行理解和分析

換言之,自然語言處理就是讓計算機理解人類語言,並進行相應的分析。

我們所熟知的蘋果Siri、微軟小冰,就是自然語言處理的典型的應用,他們不僅能夠理解我們所說的話,還能夠針對性地做出反饋。

先說結論:為了更加輕鬆、美好的生活。

舉一個簡單的例子,當我們需要讓計算機處理某個問題或者實現某個功能,需要輸入計算機能夠理解的指令,也就是代碼。

全世界知名度最高的代碼莫過於「Hello World」,我們想讓計算機「列印Hello World」,就需要用計算機理解的語言對它下達指令:

#include <stdio.h>

int main()

{

printf("Hello, World! \n");

return 0;

}

而自然語言處理就是把人類的語言和文本轉換成為機器能夠理解的數據,再將機器對數據解析出來的結果轉換成為人類的語言和文本,彌補機器和人類之間的差距,幫助人們更高效地解決問題。

首先舉一個例子來理解利用NLP帶來的【高效】。

搜索是我們平時獲取信息的重要途徑,但往往現有的搜尋引擎很難第一時間滿足我們的信息需求。

例如,想要查詢「微信MAU有多少」,我們得到的往往是下圖這樣需要耗費大量時間去逐個二次查找的連結,甚至一番查找過後,仍然得不到需要的準確信息。

而利用NLP技術的智能搜索通過理解人類語言和文本,在信息獲取需求和海量數據信息之間,能夠架起一座直達的橋梁。

虎博搜索就是這樣一款基於語義理解的下一代搜尋引擎,區別於已經延續了20年的基於關鍵詞匹配的上一代搜尋引擎,虎博搜索可以理解自然語言的搜索意圖,並且返回直觀的結構化搜索結果,實現問答式的搜索體驗。

搜索同樣的問題,得到的就是通過語義搜索提取到的騰訊財報中的準確數據——12.061億(微信及Wechat的合併月活躍帳戶數)。

虎博搜索PC版搜索示意

在一鍵獲取有效結果的背後,是NLP技術的綜合應用,機器需要理解查詢的意圖,知道微信這個實體從屬於哪家公司,明白MAU所指代的具體含義,再將騰訊財報中非結構化的數據轉化成為結構化的數據呈現出來。

一鍵獲取核心財經數據及行業分析,體驗不一樣的問答式搜索,可登陸虎博搜索PC版(search.tigerobo.com)。

這種高效具體是如何實現的呢?首先我們要明確,既然自然語言處理要解決的是人類和機器的溝通障礙,那它就需要達成兩個目標:

1、讓計算機聽得懂「人話」——即NLU自然語言理解,讓計算機具備人類的語言理解能力

2、讓計算機能夠「講人話」——即NLG自然語言生成,讓計算機能夠生成人類理解的語言和文本,比如文章、報告、圖表等等

然而,不可否認的是,儘管Google I/O大會上的Google Assistant宣稱已經通過了圖靈測試,但是離機器真正理解人類語言仍有很長的距離。

但在NLPer們的埋頭苦幹之下,機器已經能夠逐步理解人類的語言和文本,並幫助人們處理實際問題。

把人類的文本拆解來看,可以理解為詞、句、關係的組合,要讓機器理解人類語言和文本,首先要讓機器對文本進行拆解分析,以下是現階段常用的重要算法:

1、詞法分析

首先是對詞和詞組的分析,包括分詞處理、詞性標註、命名實體識別等。

分詞處理,將多種語言的文字序列切分成有意義的詞或詞組。

詞性標註,對分詞後的每個獨立單詞進行詞性判斷並標註。

命名實體識別,從輸入信息中自動識別出命名實體,如姓名、時間、地點以及機構等。

2、句法依存分析

詞法分析過後,通過詞彙之間的依存關係來拆解整個句子結構,依存關係表達了句子各成分之間的語義依賴關係,比如主謂、動賓、定中等結構關係。

3、關係/知識抽取

句法分析過後,就可以抽取信息中的特定實體之間的關係。例如從屬關係、親屬關係、同義關係等。

上圖就是利用算法讓機器對文本進行理解的例子,經過拆解分析,機器就能夠理解「NLP這個實體是從屬於人工智慧這個學科的研究方向」。

當機器抽取出了人類語言中的關係或知識,進而就可以對語言和文本做更進一步的處理,例如:

1、文本相似度分析

通過對輸入的兩個文本進行理解和對比,輸出文本之間的相似程度。下圖是對《證券日報》和《上海證券報》有關騰訊今年二季度業務報導的對比,雖然兩篇報導主題相同,但是具體報導內容各有側重,機器能夠識別出來二者內容並不相似。

文本相似度技術在網絡內容自動排重、文章關聯分析、相似度檢索等方面有著良好的應用效果。

2、語義聚類

自動對大量未分類的信息進行聚類,把內容相近的信息歸為一類,並自動為該類生成主題詞。

上圖是對一段時間內有關銀行業相關報導的聚類效果,首先將同類型信息歸納在一起,同時生成該類信息的熱詞:理財、銀行、消金等等。語義聚類對於發現新熱點、發現新事件等需求有著巨大的輔助作用。可以為專題製作、熱點追蹤等眾多業務場景提供方便。

3、文本摘要

根據輸入信息,對其進行理解,精簡提煉出核心信息,形成摘要。文本摘要可以方便用戶快速預覽信息。

下圖就是對前文提到的《上海證券報》報導進行的摘要示意,可以看到摘要準確提取到了報導中所重點闡述的淨利潤的財務指標及微信月活用戶數的業務指標。

現階段NLP技術對文本的處理還有很多,此處只做一小部分舉例。

當NLP技術對文本的處理應用綜合在一起,就能幫助解決人們在工作和生活場景中的實際問題,現階段最典型的應用包括智能搜索、智能問答、智能輿情等。

1、智能搜索

誕生了20年的傳統搜尋引擎,主要基於關鍵詞匹配來提供搜索結果,返回的是一條一條連結,很多時候我們需要一條一條的點開、閱讀,才能找到我們所需要的信息。

而使用了NLP技術的下一代搜尋引擎,體驗更偏向於問答,首先理解用戶搜索的真實意圖,再對它所理解過的海量信息進行匹配,最終反饋一個精準的結果。這樣就能大幅度提高檢索數據、信息的效率。

還是以下一代搜尋引擎虎博搜索來舉例。電商直播可以說是今年最熱的風口之一,如果想要了解電商直播的市場規模,查詢相關的研究數據,通過虎博搜索即可快速得到。

圖片來源:虎博搜索PC版

虎博搜索的底層核心智能搜索技術,還可以應用於企業和機構的具體業務場景中,例如關聯關係分析、多重維度對比、風險評估判斷、海量文檔資訊管理、競品研究分析、行業研究分析等。

當然,NLP技術的落地應用還在不斷的拓展和演變,NLP技術也尚處在早期的研發探索階段,但它是推動人工智慧從弱人工智慧走向強人工智慧的關鍵突破口,想像一下,當機器真正理解人類的語言和文本,能夠思考和推理,並且幫助人們解決人力所無法解決的問題的時候,或許人類就能夠在機器的幫助下,更好地解決問題、探索未知。

相關焦點

  • 五分鐘入門Python自然語言處理(一)
    NLTK是Python的自然語言處理工具包,在NLP領域中,最常使用的一個Python庫。什麼是NLP?簡單來說,自然語言處理(NLP)就是開發能夠理解人類語言的應用程式或服務。谷歌搜尋引擎知道你是一個技術人員,所以它顯示與技術相關的結果;社交網站推送:比如Facebook News Feed。如果News Feed算法知道你的興趣是自然語言處理,就會顯示相關的廣告和帖子。
  • 不談技術細節,自然語言處理能做些什麼?| 洞見
    深度神經網絡的爆發使得機器學習受到了廣泛的關注, 而NLP(自然語言處理)又是其中最受關注的部分。
  • 自然語言處理的十大應用
    介紹自然語言處理是數據科學領域最熱門的課題之一。公司在這一領域投入大量資金進行研究。每個人都在努力了解自然語言處理及其應用,並以此為生。你知道為什麼嗎?因為僅僅在短短幾年的時間裡,自然語言處理已經發展成為一種無人能想像的強大而有影響力的東西。為了了解自然語言處理的力量及其對我們生活的影響,我們需要看看它的應用。
  • 自然語言處理的應用前景
    自然語言處理(NLP)的定義 自然語言處理(NLP)是人工智慧技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,並且在商業中的應用正在迅速增長。 雖然自然語言處理(NLP)這一術語最初指的是人工智慧系統的閱讀能力,但它後來成為所有計算語言學的一種通俗說法。
  • 人工智慧領域的關鍵核心技術:自然語言處理
    而自然語言處理(Natural Language Processing,簡稱NLP)是AI領域的關鍵核心技術,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。正如國際知名學者周海中先生曾經所言:「自然語言處理是極有吸引力的研究領域,它具有重大的理論意義和實用價值。  NLP主要研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
  • 自然語言處理終極方向:深度學習用於自然語言處理的5大優勢
    在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。 關於深度學習方法有很多炒作和大話,但除了炒作之外,深度學習方法正在為挑戰性問題取得最先進的結果,特別是在自然語言處理領域。 在這篇文章中,您將看到深度學習方法應對自然語言處理問題的具體前景。看
  • 自然語言處理(NLP)的一般處理流程!
    什麼是NLP自然語言處理 (Natural Language Processing) 是人工智慧(AI)的一個子領域。自然語言處理是研究在人與人交互中以及在人與計算機交互中的語言問題的一門學科。為了建設和完善語言模型,自然語言處理建立計算框架,提出相應的方法來不斷的完善設計各種實用系統,並探討這些實用系統的評測方法。2.
  • NLP(自然語言處理)掃盲
    自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,是人工智慧(AI)的一個子領域,包括:1.句法語義分析:對於給定的句子,進行分詞、詞性標記、命名實體識別和連結、句法分析、語義角色識別和多義詞消歧。
  • 自然語言處理必讀:5本平衡理論與實踐的書籍
    為了幫助你解決問題,我幫你選擇5本關於自然語言處理的書,不像其他的書單,除了第一本之外,這些書都不是免費的,但事實證明它們是值得投資的,希望能對大家有所幫助。這門學科的另一種實用方法是使用PyTorch進行自然語言處理,將神經網絡應用於NLP中。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    NLP,即自然語言處理,就=相當於存在於機器語言和人類語言之間的翻譯,通過搭建溝通的橋梁,能夠高效實現人機交流的目的。自然語言理解的目標是理解人類的表達,包括語音表達和文本表達,側重於理解目標的實現,包括語法分析、文本閱讀;NLG則側重於如何生成自然語言的表達,包括翻譯系統、信息簡化、問答對話等。兩者相輔相成,大部分情況下,兩者會同時出現,來構築某一系統。
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    01什麼是自然語言處理 自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。 從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。
  • 人工智慧自然語言處理技術哪家靠譜?珍島有話說
    作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。而其中的自然語言處理,是人工智慧領域中的一個重要方向,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 孔曉泉:自然語言處理應用和前沿技術回顧 | 分享總結
    近日,雷鋒網研習社公開課邀請了孔曉泉來介紹自然語言處理技術的一些基本知識、行業的發展現狀和基於深度學習的通用的 NLP 處理流程。本次分享將幫助想要學習和從事 NLP 的學生、工程師以及愛好者建立一個基本的 NLP 的知識框架,熟悉基礎的技術方案,了解通用的深度學習處理流程。
  • 自然語言處理技術可提升創新效率
    該書指出,自然語言處理技術可提升創新效率,但目前尚未得到充分開發利用。目前,產業界正發力鑽研人工智慧利用數據的高效方法。通過自然語言處理和主題建模可以使技術優化、競爭分析和微弱信號檢測等流程得到改善,加快海量文本數據分析,而以上環節均是創新驅動的關鍵所在。Lux Research數字產品副總裁凱文·西恩博士認為,有效利用機器學習可快速挖掘數據,從而減少全面分析時間。
  • 人工智慧自然語言處理技術拉動產業升級引擎
    作為未來科技發展的前沿領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、推薦引擎、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別等。其中的自然語言處理,是人工智慧領域中的一個重要方向。
  • 讓產品更了解世界,自然語言處理掀開人工智慧新篇章
    作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。而其中的自然語言處理,是人工智慧領域中的一個重要方向,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 自然語言處理的發展簡史
    自然語言處理要使用語言知識,如UNIX的wc程序可以用來計算文本文件中的字節數、詞數或行數;當用它來計算字節數和行數時,wc只用於進行一般的數據處理,但當用它來計算一個文件中詞的數目時,就需要關於「什麼是一個詞」的語言知識,這樣,這個wc也就成為了一個自然語言處理系統。 自然語言處理是人工智慧中最為困難的問題之一。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。NLP應用背後有大量的基礎任務和機器學習模型。
  • 走進人工智慧NLP自然語言處理的世界,NLU與NLG又是什麼
    但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻…為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,並加以利用,然後能夠給人類帶來更多的方便快捷那麼,什麼是NLP自然處理人類有人類的溝通語言,比如漢語,英語,或者手語等等,這些都是人與人溝通的語言,動物有動物之間的溝通語言,當然,植物也有植物之間的溝通信息的語言
  • 自然語言處理,到底在「處理」些什麼?
    隨著自然語言處理技術的發展,計算器對文字對處理能力也達到了一個新的層次。本文中,筆者將為我們解答:自然語言處理究竟擁有什麼「能力」,結合具體應用場景能做哪些事兒?技術邊界在哪?一、詞法分析基於大數據和用戶行為的分詞後,對詞性進行標註、命名實體識別,消除歧義 。