一文讀懂Smartbi的自然語言處理(NLP)技術

2021-01-17 騰訊網

01什麼是自然語言處理

自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬於人工智慧的一個分支,是計算機科學與語言學的交叉學科。由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。

從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。從應用角度看,NLP具有廣泛的應用場景,例如:機器翻譯、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等等。它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智慧研究和與語言計算相關的語言學研究等。

NLP的興起與機器翻譯這一具體任務有著密切聯繫。「人工智慧」被作為一個研究問題正式提出來的時候,創始人把計算機西洋棋和機器翻譯作為兩個標誌性的任務,認為只要西洋棋系統能夠打敗人類世界冠軍,機器翻譯系統達到人類翻譯水平,就可以宣告人工智慧的勝利。四十年後的1997年,IBM公司的深藍超級計算機已經能夠打敗西洋棋世界冠軍卡斯帕羅夫。而機器翻譯到現在仍無法與人類翻譯水平相比,由此可見NLP有多麼的複雜和困難!

02自然語言處理的發展趨勢

目前,人們主要通過兩種思路來進行自然語言處理,一種是基於規則的理性主義,另外一種是基於統計的經驗主義。理性主義方法認為,人類語言主要是由語言規則來產生和描述的,因此只要能夠用適當的形式將人類語言規則表示出來,就能夠理解人類語言,並實現語言之間的翻譯等各種NLP任務。而經驗主義方法則認為,從語言數據中獲取語言統計知識,有效建立語言的統計模型。因此只要能夠有足夠多的用於統計的語言數據,就能夠理解人類語言。然而,當面對現實世界充滿模糊與不確定性時,這兩種方法都面臨著各自無法解決的問題。例如,人類語言雖然有一定的規則,但是在真實使用中往往伴隨大量的噪音和不規範性。理性主義方法的一大弱點就是魯棒性差,只要與規則稍有偏離便無法處理。而對於經驗主義方法而言,又不能無限地獲取語言數據進行統計學習,因此也不能夠完美地理解人類語言。二十世紀八十年代以來的趨勢就是,基於語言規則的理性主義方法不斷受到質疑,大規模語言數據處理成為目前和未來一段時期內NLP的主要研究目標。統計學習方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。

隨著2013年word2vec技術的發表,以神經網絡為基礎的深度學習技術開始在NLP中廣泛使用,深度學習的分布式語義表示和多層網絡架構具有強大的擬合和學習能力,顯著提升了NLP各種任務的性能,成為現階段NLP的主要技術方案。

深度學習是純數據驅動技術方案,需要從大規模標註數據中學習特定任務相關的複雜模式。一方面,有些學者開始探索麵向大規模無標註文本數據的深度學習模型,如ELMo,GPT、BERT等,可以看做從大規模數據中學習知識的極致探索;另一方面,現有深度學習技術尚未考慮人類積累的豐富知識(包括語言知識、世界知識、常識知識、認知知識、行業知識等),如果將深度學習看做經驗主義方法,將符號知識看做理性主義方法,那麼如何充分發揮基於規則的理性主義方法和基於統計的經驗主義方法的優勢,兩者互相補充,更好、更快地進行自然語言處理,仍然是我們需要探索的重要課題。

03自然語言處理在BI的應用

2018年,Gartner 在其發布的魔力象限報告中,明確指出增強型分析功能是 BI 產品發展的最重要、也是最顯著的發展趨勢之一,其原因並不難理解:「當前企業使用的數據的規模和複雜度已經逐漸超過人類可以處理的程度,靜態報表、儀錶板等傳統工具已經不能滿足需求,而通過機器學習、人工智慧等技術增強分析,可以更好地處理這些數據。而如果利用自然語言處理、人工智慧等技術的增強分析就可以自動、快速地對數據進行分析,輔助分析人員得到需要的數據洞察。」

作為兩次入選 「Gartner增強分析2020代表廠商」和「Gartner中國人工智慧創業公司代表廠商(2020)」的Smartbi正是看到了這些趨勢,在2018年便開始自主研發增強分析工具Smartbi NLP,期望通過引入自然語言處理、知識圖譜、推薦算法和機器問答等人工智慧技術,使得Smartbi NLP可以理解用戶的數據分析需求,並幫助其快速完成分析任務獲得數據洞見。

Smartbi NLP的交互式對話實際上是一種特定的語義分析任務。在學術界,類似的任務最早可以追溯到1970年代提出的自然語言編程(Natural-language programming),是指將自然語言(研究比較多的是英語)翻譯為特定的程式語言。在1980年代,人們又針對關係性資料庫提出了自然語言資料庫查詢(Natural Language Database Query),也稱為Text2SQL、NL2SQL等。它將用戶的自然語句轉為可以執行的SQL語句,從而免除業務用戶學習SQL語言的煩惱,成功將NLP應用於BI領域。

Smartbi NLP利用了NL2SQL技術,將自然語言通過神經網絡轉化為計算機可以識別的資料庫查詢語言。用戶通過語音或者鍵盤輸入後,「AI智能小麥」會將輸入的自然語言轉為語言元模型的形式,通過小麥內置的知識抽取算法,經過深度學習模型將元模型轉化為機器可以理解的資料庫語言。最後通過Smartbi預置的查詢引擎和圖形引擎,快速準確的找到用戶想要的查詢結果,自動生成圖形輸出,也可以在Smartbi中對查詢結果進行組合和進一步分析。

圖:NL2SQL模型原理示意圖

Smartbi NLP是時下前沿的數據分析工具,簡化為搜尋引擎,僅僅只有一個輸入框,頁面直接輸入描述業務問題,工具自動把數據查詢出來,免去學習操作的過程,特別適合在展廳大屏、領導辦公室大屏等場合使用,一經推出便廣受客戶歡迎。

相關焦點

  • 國內自然語言處理(NLP)研究組
    Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 一文帶你讀懂自然語言處理 - 事件提取
    數百萬數據源以新聞稿、博客、消息、手稿和無數其他形式發布,因而自動組織和處理就必不可少。隨著神經網絡算法的改進、計算機算力的顯著提升以及大量湧現的理解框架,自然語言處理的能力正被前所未有的探索。其中一個常見應用稱為事件提取,即處理收集蘊藏在文本中的一個階段內發生的事件,自動識別發生了什麼和什麼時候發生。
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    •  Dan Jurafsky 和 Chris Manning:自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    5月26日,由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 自然語言處理 NLP 發展簡史
    這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。(下文皆簡稱為「NLP」),它的工作原理是這樣的:接收自然語言,這種語言是通過人類的自然使用演變而來的,我們每天都用它來交流轉譯自然語言,通常是通過基於概率的算法分析自然語言並輸出結果
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!大數據文摘視頻團隊在今年又獲得重磅資源,牛津大學深度學習與自然語言處理課程(Deep NLP)!大數據文摘已聯繫課程主講人取得翻譯授權,並聯合北京郵電大學模式識別實驗室組織了視頻漢化,免費發布。 所以大家可以看到中文字幕了!開不開心!
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 一文解讀NLP中的注意力機制
    本文深入淺出地介紹了近些年的自然語言中的注意力機制包括從起源、變體到評價指標方面。本文便對NLP的注意力機制進行了綜述。以nlp領域來說,序列可以是句子、段落、篇章等,所以我們也可以把它看作處理由一個句子(段落或篇章)生成另外一個句子(段落或篇章)的通用處理模型。對於句子對,我們期望輸入句子Source,期待通過Encoder-Decoder框架來生成目標句子Target。Source和Target可以是同一種語言,也可以是兩種不同的語言,若是不同語言,就可以處理翻譯問題了。
  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    選自Github作者:Sebastian Ruder機器之心編譯參與:思源、曉坤自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    雷鋒網 AI 科技評論按,近日,由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019 自然語言處理前沿論壇」上,來自百度和各大高校的嘉賓們分享了關於 NLP 技術研究的心得體會。
  • 自然語言處理學術會議AACL線上召開 聚焦亞太地區NLP技術進展
    同時,按照ACL年會慣例,此次亞太分會年會與第十屆國際自然語言處理聯席會議(International Joint Conference on Natural Language Processing, IJCNLP)聯合召開。會議匯集來自學界、業界的百餘位自然語言處理領域的專家大咖,圍繞語義表示與理解、知識圖譜、對話系統、信息抽取與文本挖掘、機器翻譯等前沿技術方向進行了深入交流與探討。