人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域

2021-01-17 機器之心Pro

選自xenonstack機器之心編譯參與:黃小天、李亞洲

近日,Xenonstack 上推出了一篇名為《Overview of Artificial Intelligence and Role of Natural Language Processing in Big Data》文章,作者為 Jagreet Kaur,其全面概述了人工智慧及其各個細分領域的狀況,並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。機器之心對文章進行了編譯,原文連結附於文末。

人工智慧概述

AI 指代「人工智慧」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。

「人工智慧」包含兩個關鍵點:

自動化智能

人工智慧的目標

推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能

人工智慧三大階段

階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。

人工智慧目前處於此階段。

階段 3——機器意識:不需要外部數據就能從經驗中自學習。

人工智慧的類型

ANI(狹義人工智慧):它包含基礎的、角色型任務,比如由 Siri、Alexa 這樣的聊天機器人、個人助手完成的任務。AGI(通用人工智慧):通用人工智慧包含人類水平的任務,它涉及到機器的持續學習。ASI(強人工智慧):強人工智慧指代比人類更聰明的機器。

什麼使得系統智能化?

自然語言處理知識表示自動推理機器學習

NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別

人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。機器學習:建立能從經驗中進行學習的系統,也是人工智慧的一個分支。神經網絡:生物學啟發出的人工神經元網絡。深度學習:在大型數據集上,建立使用深度神經網絡的系統,機器學習的一個分支。

什麼是自然語言處理?

自然語言處理(NLP)是指機器理解並解釋人類寫作、說話方式的能力。

NLP 的目標是讓計算機/機器在理解語言上像人類一樣智能。最終目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。

下面是三個不同等級的語言學分析:

句法學:給定文本的哪部分是語法正確的。語義學:給定文本的含義是什麼?語用學:文本的目的是什麼?

NLP 處理語言的不同方面,例如:

音韻學:指代語言中發音的系統化組織。詞態學:研究單詞構成以及相互之間的關係。

NLP 中理解語義分析的方法:

分布式:它利用機器學習和深度學習的大規模統計策略。框架式:句法不同,但語義相同的句子在數據結構(幀)中被表示為程式化情景。理論式:這種方法基於的思路是,句子指代的真正的詞結合句子的部分內容可表達全部含義。交互式(學習):它涉及到語用方法,在交互式學習環境中用戶教計算機一步一步學習語言。

我們為什麼需要 NLP

有了 NLP,有可能完成自動語音、自動文本編寫這樣的任務。

由於大型數據(文本)的存在,我們為什麼不使用計算機的能力,不知疲倦地運行算法來完成這樣的任務,花費的時間也更少。

這些任務包括 NLP 的其他應用,比如自動摘要(生成給定文本的總結)和機器翻譯。

NLP 流程

如果要用語音產生文本,需要完成文本轉語音任務

NLP 的機制涉及兩個流程:

自然語言理解自然語言生成

自然語言理解(NLU)

NLU 是要理解給定文本的含義。文本內每個單詞的特性與結構需要被理解。在理解結構上,NLU 要理解自然語言中的以下幾個歧義性:

詞法歧義性:單詞有多重含義句法歧義性:語句有多重解析樹語義歧義性:句子有多重含義回指歧義性(Anaphoric Ambiguity):之前提到的短語或單詞在後面句子中有不同的含義。

接下來,通過使用詞彙和語法規則,理解每個單詞的含義。

然而,有些詞有類似的含義(同義詞),有些詞有多重含義(多義詞)。

自然語言生成(NLG)

NLG 是從結構化數據中以可讀地方式自動生成文本的過程。自然語言生成的問題是難以處理。

自然語言生成可被分為三個階段:

1. 文本規劃:完成結構化數據中基礎內容的規劃。

2. 語句規劃:從結構化數據中組合語句,來表達信息流。

3. 實現:產生語法通順的語句來表達文本。

NLP 與文本挖掘(或文本分析)之間的不同

自然語言處理是理解給定文本的含義與結構的流程。

文本挖掘或文本分析是通過模式識別提起文本數據中隱藏的信息的流程。

自然語言處理被用來理解給定文本數據的含義(語義),而文本挖掘被用來理解給定文本數據的結構(句法)。

例如,在「I found my wallet near the bank」一句中,NLP 的任務是理解句尾「bank」一詞指代的是銀行還是河邊。

大數據中的 NLP

如今所有數據中的 80% 都可被用到,大數據來自於大公司、企業所存儲的信息。例如,職員信息、公司採購、銷售記錄、經濟業務以及公司、社交媒體的歷史記錄等。

儘管人類使用的語言對計算機而言是模糊的、非結構化的,但有了 NLP 的幫助,我們可以解析這些大型的非結構化數據中的模式,從而更好地理解裡面包含的信息。

NLP 可使用大數據解決商業中的難題,比如零售、醫療、金融領域中的業務。

什麼是聊天機器人?

聊天機器人與自動智能代理

指代你能通過聊天 app、聊天窗口或語音喚醒 app 進行交流的電腦程式。也有被用來解決客戶問題的智能數位化助手,成本低、高效且持續工作。

聊天機器人的重要性

聊天機器人對理解數位化客服和頻繁諮詢的常規問答領域中的變化至關重要。聊天機器人在一些領域中的特定場景中非常有幫助,特別是會被頻繁問到高度可預測的的問題時。

聊天機器人的工作機制

基於知識:包含信息庫,根據客戶的問題回應信息。數據存儲:包含與用戶交流的歷史信息。NLP 層:它將用戶的問題(任何形式)轉譯為信息,從而作為合適的回應。應用層:指用來與用戶交互的應用接口。

聊天機器人每次與用戶交流時都能進行學習,使用機器學習回應信息庫中的信息。

NLP 中為什麼需要深度學習

它使用基於規則的方法將單詞表示為「one-hot」編碼向量。傳統的方法注重句法表徵,而非語義表徵。詞袋:分類模型不能夠分別特定語境。

深度學習的三項能力

可表達性:這一能力描述了機器如何能近似通用函數。可訓練性:深度學習系統學習問題的速度與能力。可泛化性:在未訓練過的數據上,機器做預測的能力。

在深度學習中,當然也要考慮其他的能力,比如可解釋性、模塊性、可遷移性、延遲、對抗穩定性、安全等。但以上是主要的幾項能力。

NLP 中深度學習的常見任務

傳統 NLP 和深度學習 NLP 的區別

日誌分析與日誌挖掘中的 NLP

什麼是日誌?

不同網絡設備或硬體的時序信息集合表示日誌。日誌可直接存儲在硬碟文檔中,也可作為信息流傳送到日誌收集器。

日誌提供維持、追蹤硬體表現、參數調整、緊急事件、系統修復、應用和架構優化的過程。

什麼是日誌分析?

日誌分析是從日誌中提取信息的過程,分析信息中的句法和語義,解析應用環境,從而比較分析不同源的日誌文檔,進行異常檢測、發現關聯性。

什麼是日誌挖掘?

日誌挖掘或日誌知識發現是提取日誌中模式和關聯性的過程,從而挖掘知識,預測日誌中的異常檢測。

日誌分析和日誌挖掘中使用到的技術

下面介紹了完成日誌分析的不同技術:

模式識別:將日誌信息與模式薄中的信息進行對比,從而過濾信息的技術。標準化:日誌信息的標準化是將不同的信息轉換為同樣的格式。當來自不同源的日誌信息有不同的術語,但含義相同時,需要進行標準化。分類 & 標籤:不同日誌信息的分類 & 標籤涉及到對信息的排序,並用不同的關鍵詞進行標註。Artificial Ignorance:使用機器學習算法拋棄無用日誌信息的技術。它也可被用來檢測系統異常。

日誌分析 & 日誌挖掘中的 NLP

自然語言處理技術被普遍用於日誌分析和日誌挖掘。

詞語切分、詞幹提取(stemming)、詞形還原(lemmatization)、解析等不同技術被用來將日誌信息轉換成結構化的形式。

一旦日誌以很好的形式組織起來,日誌分析和日誌挖掘就能提取信息中有用的信息和知識。

深度自然語言處理

自然語言處理是一個複雜的領域,處於人工智慧、計算語言學和計算機科學的交叉領域。

從 NLP 開始

用戶需要輸入一個包含已寫文本的文件;接著應該執行以下 NLP 步驟:

語句分割 - 在給定文本中辨識語句邊界,即一個語句的結束和另一個語句的開始。語句通常以標點符號「.」結束。標記化 - 辨識不同的詞、數字及其他標點符號。詞幹提取 - 將一個詞還原為詞幹。詞性標註 - 標出語句中每一個詞的詞性,比如名詞或副詞。語法分析 - 將給定文本的部分按類劃分。命名實體識別 - 找出給定文本中的人物、地點、時間等。指代消解 - 根據一個語句的前句和後句界定該句中給定詞之間的關係。

NLP 的其他關鍵應用領域

除了在大數據、日誌挖掘及分析中的應用,NLP 還有一些其他主要應用領域。

儘管 NLP 不如大數據、機器學習聽起來那麼火,但我們每天都在使用它:

自動摘要 - 在給定輸入文本的情況下,擯棄次要信息完成文本摘要。情感分析 - 在給定文本中預測其主題,比如,文本中是否包含判斷、觀點或評論等。文本分類 - 按照其領域分類不同的期刊、新聞報導。多文檔分類也是可能的。文本分類的一個流行示例是垃圾電子郵件檢測。基於寫作風格,可檢測作者姓名。信息提取 - 建議電子郵件程序自動添加事件到日曆。

原文連結:https://www.xenonstack.com/blog/overview-of-artificial-intelligence-and-role-of-natural-language-processing-in-big-data

相關焦點

  • 國內自然語言處理(NLP)研究組
    Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • 實踐入門NLP:基於深度學習的自然語言處理
    可以說,自然語言的研究歷史雖然還不是很長,但近些年在谷歌、IBM、斯坦福、阿里巴巴、Facebook等NLP領域的核心企業和研究所的推動下,其取得的成績,足以顯示它在人工智慧領域乃至整個計算機科學研究的重要性和廣闊應用前景。
  • 人工智慧難點之——自然語言處理(NLP)
    (NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?正如哥德巴赫猜想是數論皇冠上的明珠,微軟創始人比爾·蓋茨曾經如是說,「自然語言理解是人工智慧領域皇冠上的明珠」。比爾·蓋茨所說的自然語言理解是自然語言處理的一個重要組成部分。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 2019 年 NLP 領域都發生了哪些大事件?
    對於自然語言處理領域來說,2019 年可謂是令人驚嘆的一年!XLNet 是一種用於自然語言處理任務的預訓練方法,它在 20 種任務上相較於 BERT 有了進一步的提升。關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 19個人工智慧(AI)熱門應用領域,你知道多少?
    [導讀]自然語言生成是人工智慧的分支,研究如何將數據轉化為文本,用於客戶服務、報告生成以及市場概述
  • 自然語言處理 NLP 發展簡史
    這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    )是人工智慧的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科。近日,在雷鋒網 AI 研習社公開課上,新加坡科學設計大學在讀博士鄒炎炎就用通俗易懂的語言為大家介紹了 semantic parsing 的概念、背景以及自己在該領域的論文成果,並介紹了關於 output embedding 對於 semantic parsing 的影響。公開課回放視頻網址:http://www.mooc.ai/open/course/544?
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。詞向量的引入開啟了深度學習應用於自然語言處理的時代。相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 科普自然語言處理
    >自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。-1956年):這個階段人類的語言、數學、物理學等各個領域都得到了充分發展,為計算機誕生做了充足的條件,也為自然語言處理理論提供了很多基礎。阿蘭·圖靈在1936年首次提出了圖靈機的概念,使得電子計算機在1946年誕生,也為自然語言處理的提供了必要的條件。
  • 深度學習概述:NLP vs CNN
    最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。一些公司在他們的軟體和服務中使用了LSTMs、GANs、變分自編碼器等算法。本文在以下部分列出了人工智慧領域當前最熱門的技術以及正在研究這些熱門技術的公司。
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!大數據文摘視頻團隊在今年又獲得重磅資源,牛津大學深度學習與自然語言處理課程(Deep NLP)!大數據文摘已聯繫課程主講人取得翻譯授權,並聯合北京郵電大學模式識別實驗室組織了視頻漢化,免費發布。 所以大家可以看到中文字幕了!開不開心!