一文讀懂Smartbi的自然語言處理(NLP)技術

2021-01-11 思邁特BI研究院

01什麼是自然語言處理

自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬於人工智慧的一個分支,是計算機科學與語言學的交叉學科。由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。

從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。從應用角度看,NLP具有廣泛的應用場景,例如:機器翻譯、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等等。它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智慧研究和與語言計算相關的語言學研究等。

NLP的興起與機器翻譯這一具體任務有著密切聯繫。「人工智慧」被作為一個研究問題正式提出來的時候,創始人把計算機西洋棋和機器翻譯作為兩個標誌性的任務,認為只要西洋棋系統能夠打敗人類世界冠軍,機器翻譯系統達到人類翻譯水平,就可以宣告人工智慧的勝利。四十年後的1997年,IBM公司的深藍超級計算機已經能夠打敗西洋棋世界冠軍卡斯帕羅夫。而機器翻譯到現在仍無法與人類翻譯水平相比,由此可見NLP有多麼的複雜和困難!

02自然語言處理的發展趨勢

目前,人們主要通過兩種思路來進行自然語言處理,一種是基於規則的理性主義,另外一種是基於統計的經驗主義。理性主義方法認為,人類語言主要是由語言規則來產生和描述的,因此只要能夠用適當的形式將人類語言規則表示出來,就能夠理解人類語言,並實現語言之間的翻譯等各種NLP任務。而經驗主義方法則認為,從語言數據中獲取語言統計知識,有效建立語言的統計模型。因此只要能夠有足夠多的用於統計的語言數據,就能夠理解人類語言。然而,當面對現實世界充滿模糊與不確定性時,這兩種方法都面臨著各自無法解決的問題。例如,人類語言雖然有一定的規則,但是在真實使用中往往伴隨大量的噪音和不規範性。理性主義方法的一大弱點就是魯棒性差,只要與規則稍有偏離便無法處理。而對於經驗主義方法而言,又不能無限地獲取語言數據進行統計學習,因此也不能夠完美地理解人類語言。二十世紀八十年代以來的趨勢就是,基於語言規則的理性主義方法不斷受到質疑,大規模語言數據處理成為目前和未來一段時期內NLP的主要研究目標。統計學習方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。

隨著2013年word2vec技術的發表,以神經網絡為基礎的深度學習技術開始在NLP中廣泛使用,深度學習的分布式語義表示和多層網絡架構具有強大的擬合和學習能力,顯著提升了NLP各種任務的性能,成為現階段NLP的主要技術方案。

深度學習是純數據驅動技術方案,需要從大規模標註數據中學習特定任務相關的複雜模式。一方面,有些學者開始探索麵向大規模無標註文本數據的深度學習模型,如ELMo,GPT、BERT等,可以看做從大規模數據中學習知識的極致探索;另一方面,現有深度學習技術尚未考慮人類積累的豐富知識(包括語言知識、世界知識、常識知識、認知知識、行業知識等),如果將深度學習看做經驗主義方法,將符號知識看做理性主義方法,那麼如何充分發揮基於規則的理性主義方法和基於統計的經驗主義方法的優勢,兩者互相補充,更好、更快地進行自然語言處理,仍然是我們需要探索的重要課題。

03自然語言處理在BI的應用

2018年,Gartner 在其發布的魔力象限報告中,明確指出增強型分析功能是 BI 產品發展的最重要、也是最顯著的發展趨勢之一,其原因並不難理解:「當前企業使用的數據的規模和複雜度已經逐漸超過人類可以處理的程度,靜態報表、儀錶板等傳統工具已經不能滿足需求,而通過機器學習、人工智慧等技術增強分析,可以更好地處理這些數據。而如果利用自然語言處理、人工智慧等技術的增強分析就可以自動、快速地對數據進行分析,輔助分析人員得到需要的數據洞察。」

作為兩次入選 「Gartner增強分析2020代表廠商」和「Gartner中國人工智慧創業公司代表廠商(2020)」的Smartbi正是看到了這些趨勢,在2018年便開始自主研發增強分析工具Smartbi NLP,期望通過引入自然語言處理、知識圖譜、推薦算法和機器問答等人工智慧技術,使得Smartbi NLP可以理解用戶的數據分析需求,並幫助其快速完成分析任務獲得數據洞見。

Smartbi NLP的交互式對話實際上是一種特定的語義分析任務。在學術界,類似的任務最早可以追溯到1970年代提出的自然語言編程(Natural-language programming),是指將自然語言(研究比較多的是英語)翻譯為特定的程式語言。在1980年代,人們又針對關係性資料庫提出了自然語言資料庫查詢(Natural Language Database Query),也稱為Text2SQL、NL2SQL等。它將用戶的自然語句轉為可以執行的SQL語句,從而免除業務用戶學習SQL語言的煩惱,成功將NLP應用於BI領域。

Smartbi NLP利用了NL2SQL技術,將自然語言通過神經網絡轉化為計算機可以識別的資料庫查詢語言。用戶通過語音或者鍵盤輸入後,「AI智能小麥」會將輸入的自然語言轉為語言元模型的形式,通過小麥內置的知識抽取算法,經過深度學習模型將元模型轉化為機器可以理解的資料庫語言。最後通過Smartbi預置的查詢引擎和圖形引擎,快速準確的找到用戶想要的查詢結果,自動生成圖形輸出,也可以在Smartbi中對查詢結果進行組合和進一步分析。

圖:NL2SQL模型原理示意圖

Smartbi NLP是時下前沿的數據分析工具,簡化為搜尋引擎,僅僅只有一個輸入框,頁面直接輸入描述業務問題,工具自動把數據查詢出來,免去學習操作的過程,特別適合在展廳大屏、領導辦公室大屏等場合使用,一經推出便廣受客戶歡迎。

相關焦點

  • 國內自然語言處理(NLP)研究組
    Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • 從語言學到深度學習NLP,一文概述自然語言處理
    這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。 首先第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。
  • 自然語言處理 NLP 發展簡史
    這一系列顛覆性的研究成果在學術界引發轟動,激發了人工智慧(AI)的思潮,同時也催生了自然語言處理(NLP)和計算機技術的發展。NLP 的早期理論基礎人們最早對 NLP 的探索始於對機器翻譯的研究。1947年,美國科學家韋弗(W. Weaver)博士和英國工程師布斯(A. D.
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。(下文皆簡稱為「NLP」),它的工作原理是這樣的:接收自然語言,這種語言是通過人類的自然使用演變而來的,我們每天都用它來交流轉譯自然語言,通常是通過基於概率的算法分析自然語言並輸出結果簡而言之,這就是一個創建算法的過程。你使用過蘋果公司的人工智慧語音助手Siri嗎?
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • NLP(自然語言處理)居然有這麼多應用場景?
    NLP(自然語言處理)居然有這麼多應用場景?機器翻譯、輿論分析、智能問答……NLP的應用場景你知道多少?如果你聽說過人工智慧,那麼對於自然語言處理技術一定也不陌生,自然語言處理技術屬於人工智慧的一個子領域,它對計算機和人類的交互方式產生了很重要的影響。為了更方便大家理解,在介紹什麼是NLP之前,首先我們先來了解一下語言的分類。
  • 技術積累深厚 虎博科技再奪年度NLP自然語言處理競爭力20強
    近日,虎博科技入選2020年中國人工智慧NLP領域競爭力TOP20,這是繼獲得沙利文、量子位、人工智慧頂會NIPS等業內專家一致好評後的再度認可,標誌著虎博科技在自然語言處理領域的技術前沿性和行業代表性。微軟小冰、出門問問、雲知聲、思必馳、追一科技等業內知名公司同步入榜。
  • 自然語言處理(NLP)公司深度好奇獲1500萬元Pre-A輪融資
    自然語言處理(NLP)公司「深度好奇」於2019年年底獲得1500萬元Pre-A輪融資,投資方為天堂矽谷,主要用於加速產品開發以及市場開拓。  深度好奇創立於2016年,專注於自然語言理解和認知智能的研發和落地,他們將深度學習和符號智能結合,為公安領域構建情報分析和案件研判的平臺,是全球第一家成功研發出基於神經符號智能的商用化系統並實現場景落地的公司。「在公安業務模塊中,情報分析、偵破線索發現和案件串並分析是接案辦案的起點,深度好奇的技術正好可以滿足這項剛需。」
  • NLP開發者盛宴!百度大腦開放日釋放自然語言處理最新黑科技
    作為人工智慧理解信息的核心手段,近年來自然語言處理技術(NLP)突破頻頻,並開始往更多垂直場景落地應用。7月31日,百度大腦開放日NLP專場於中關村創業大街的百度大腦創新體驗中心舉行。開放日期間,百度自然語言處理部副總監忻舟分享了NLP領域的開放全景,並重點介紹了智能創作平臺2.0的新特性、PaddleNLP(NLP開源工具與預訓練模型集)、ERINE(知識增強的語義理解框架)等最新技術。活動現場,央視網、國美零售、縱橫文學的相關技術負責人也登臺演講,闡述企業如何借力百度大腦開放的NLP技術能力,實現自身業務的智能化演變。
  • NLP市場規模超百億,自然語言處理專業大熱,英專學生也可以申請
    在討論自然語言處理這一學科時,提到喬姆斯基,一方面是希望大家了解語言學理論對自然語言處理和人工智慧的影響,另一方面是希望英專學生了解,因為有語言學基礎,且英語能力優秀的話,如果要申請出國留學,除了TESOL, 教育和傳媒等人文類專業,自然語言處理也是個很不錯的選擇。
  • 史丹福大學《語音與語言處理》第三版:NLP必讀書籍
    Martin 共同編寫的《語音與語言處理》是自然語言處理領域裡的著名參考書。它不僅可以幫助語言學研究者深入了解語言處理的計算模型和技術,而且還能幫助計算機語言應用開發人員了解更多語言學基礎,並幫助語音處理的專業人員了解語言理解和語義學知識。在 2008 年該書推出第二版之後,2015 年,兩位作者終於發表了第三版草稿,在近年技術與理論發展的基礎上更新了全書內容。
  • 深度學習的NLP工具
    在今天的世界中,這些都是自然語言處理(NLP)的研究員遇到的問題。我們來看一個假想的博士學生。我們叫它亞歷山大,他剛開始機械翻譯(NMT)的研究。有一天早上他看到了Google 最著名的 論文「注意力是你全部需要的」,其中介紹了Transformer 模型,完全基於注意力機制。
  • CMU 2020年「神經網絡NLP」課程開課啦
    對正在學習自然語言處理的同學們來說,這是一份不可多得的好資源。課程內容卡內基梅隆大學語言技術學院將從神經網絡的簡要概述開始,然後花大部分時間演示如何將神經網絡應用於解決自然語言問題。每一節將介紹自然語言中的一個特殊問題或現象,描述建模的難點,並演示幾種用來解決這個問題的模型。該課程將涵蓋在創建神經網絡模型中各種有用的技術,包括處理大小不一的結構化句子、高效處理大數據、半監督和無監督學習、結構化預測和多語言建模。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 美能華創始人兼CEO童先明:自然語言處理應用仍是藍海
    從工程師到創業者,從矽谷到蘇州,無論是身份的切換還是工作場景的轉變,童先明都對「自然語言處理技術」有著獨特的情懷。眾所周知,自然語言處理技術被譽為「人工智慧皇冠上的明珠」,研發難度很大,仍有更深層次的問題等待突破。正是看到了自然語言處理領域的挑戰和廣闊前景,有技術和人才的童先明毅然決然邁向了創業的道路。
  • 百度NLP十年:基於知識增強的語言技術,實現跨模態一體化理解
    在8月25日舉行的百度大腦語言與知識技術峰會上,王海峰表示,「在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,並力爭引領趨勢。」從王海峰在演講中提及的《機器翻譯淺說》(1964年,中國NLP領域的先行者劉湧泉、劉倬、高祖舜合作出版)一書算起,中國的自然語言處理研究已經經歷了半個多世紀的發展和演變。
  • 時隔兩年,斯坦福NLP標準公開課CS224N將再次開放視頻
    機器之心報導參與:思源、曉坤你知道怎麼入門自然語言處理麼?當然是大名鼎鼎的斯坦福公開課 CS224N 了,它和計算機視覺方面的課程 CS231n 堪稱絕配。但是自 2017 年以來,NLP 有了很多重大的變化,包括 Transformer 和預訓練語言模型等。
  • 自然語言處理必讀:5本平衡理論與實踐的書籍
    即使是在找一本關於某個主題的書,也會很快發現這樣的書太多了,無法快速判斷哪一本最適合自己。為了幫助你解決問題,我幫你選擇5本關於自然語言處理的書,不像其他的書單,除了第一本之外,這些書都不是免費的,但事實證明它們是值得投資的,希望能對大家有所幫助。
  • NLP接下來黃金十年---周明等談值得關注的NLP技術 | 技術專欄
    本文中,微軟亞洲研究院自然語言計算組的研究員們將為我們盤點NLP已經取得技術進展,並展望未來的研究熱點。 比爾·蓋茨曾說過,「語言理解是人工智慧皇冠上的明珠」。自然語言處理(NLP,Natural Language Processing)的進步將會推動人工智慧整體進展。NLP的歷史幾乎跟計算機和人工智慧(AI)的歷史一樣長。
  • NLP的文本分析與特徵工程
    自然語言處理(NLP)是人工智慧的一個研究領域,它研究計算機與人類語言之間的相互作用,特別是如何對計算機進行編程以處理和分析大量自然語言數據。NLP常用於文本數據的分類。文本分類是根據文本數據的內容對其進行分類的問題。文本分類最重要的部分是特徵工程:從原始文本數據為機器學習模型創建特徵的過程。