源創專欄|機器理解複雜語言?這家初創公司想用神經符號處理實現

2021-01-17 DeepTech深科技

文字作為一種極其高效的信息傳達方式,它有著數千年的歷史和傳統。隨著信息的概念逐漸普世化,於是人們開始使用機器來理解文字,從而實現更高效的文字工作。這種技術被稱之為自然語言處理,它有兩種分類:基於文本的應用和基於對話的應用。

基於對話的應用是指在預先的知識庫中搜索用戶問題的答案,比如這群AI黃埔老兵們的創業公司,要搞出一套「任性」的AI導購技術丨源創專欄一文所介紹的。基於文本的應用則是通過對文庫的解讀,進行提取文章關鍵信息、翻譯成另外一種語言、把文章歸類等操作。

本期的主角便是一家研發這種技術的公司——深度好奇。

什麼是深度好奇?

從模式上來講,深度好奇其實非常好理解,通過該企業的自然語言處理與文字相關的行業相結合,從而讓客戶企業達到更高效的業務效率。不過從技術上來講,深度好奇就變得異常難理解了,非常像是通用人工智慧技術的理念。

深度好奇創始人呂正東稱這種技術為神經符號系統,利用符號智能和深度學習結合所產生的新框架,可以用來理解複雜文本。

傳統的符號系統被稱之為單一符號系統,也被叫做傳統知識求精系統,典型的如SEEK/SEEK2、EITHER\NEITHER。這項技術雖然可以簡化知識庫,早在 1995 年的時候,浙江大學生物醫學研究所的王繼成、呂維雪等人就在利用神經符號系統來讓機器理解心電圖。但是傳統的符號系統效率和容錯能力都很低,因此並沒有得到良好的發展。而神經網絡可以實現大規模的並行運算,因此把符號系統與之結合,就能得到超高的效率和容錯能力。

所謂理解複雜文本,指的就是其字面意義。諸如法律訴訟、行業報告,甚至更原始的文本。目前,深度好奇已經把這項技術適用在了法律、公安和金融這三個領域之中。該企業有一項業務是生成法院判決文書,非常具有代表性。

深度好奇利用神經符號系統,把案情梳理、判決意見等文本進行理解,最後生成合乎標準的判決文書。呂正東告訴 DT 君:「在閱讀這些原始文本中,機器會去判斷,哪些可以直接複製粘貼以及哪些需要重新編寫。就像記者寫文章,要有素材也要有主編的修改意見。」

圖丨深度好奇的辦公室(來源:DT君)

深度好奇最早接觸的行業便是法律,當時呂正東的想法是合作以及解決辦法的銷售。隨著企業的發展,他改變了策略,深度好奇開始將被動轉向主動,即把行業資源拉入自己的業務之中。呂正東說:「早期的深度好奇是把方案給客戶,然後客戶做成產品拿去賣錢。」

呂正東接著強調,在公安方面其實深度好奇的業務空間是很大的。從報案開始,信息會以非結構化的數據形式錄入到公安系統當中,比如筆錄、證詞等等。在這些文字中,會出現很多的關鍵信息,不過文本本身還是比較混亂,如果與嫌疑人、受害人結構化信息(如身份證號)相匹配時,並不易於查詢。

深度好奇則是利用神經符號系統,把這些關鍵信息進行知識梳理,將其簡化以方便後續過程中的查詢。同時該企業還能進一步匹配信息,不同案情的屬性如果相似,就會相互連接,從而讓查案更高效。

呂正東認為,自然語言處理的發展方向就是理解。把知識從文本中提取,並歸納總結,最後便簡化了閱讀的過程。但是這種歸納總結和搜尋引擎所使用的關鍵字提取有著截然不同的區別,簡單的匹配技術對於文本的知識提取來說,遠遠是不夠的。以中文為例,「佟大為老婆生下女嬰」,在搜尋引擎的算法中,這極有可能是一位英雄父親為減少妻子分娩痛苦而做出的改變,然而事實上,是佟大為的老婆生下了女嬰。

實際上,做中文的自然語言處理是非常難的,中文詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態標記。因此,中文信息處理的特有問題就是如何將漢字的字串分割為合理的詞語序列,也就是漢語分詞。自然語言處理本身就要考慮語法、語義和語用,再加上分詞,複雜語言的處理過程就是難上加難了。

誰組成了深度好奇?

在創業之前,呂正東博士曾任職於微軟亞洲研究院、華為諾亞方舟實驗室。按照他本身的說法,呂正東早期從事的是比較泛用的機器學習。但是他並沒有那麼熱愛實驗室那種每年發表幾篇論文的感覺,呂正東更喜歡創一番事業。

呂正東很崇拜谷歌,也很喜歡 DeepMind。拋開後者資本驅動的一方面,DeepMind 是在朝著其研發的方向而前進,即研究人腦的計算方式反哺人工智慧以及強化學習等。

不過,呂正東也不想讓自己的公司變成 DeepMind,他覺得這家公司太過於方法導向,以至於很難在某一個領域成為標杆。他希望能讓企業達到 DeepMind 的高度,而不是變成這麼一家發散型的科技公司。

呂正東的想法是把聰明的人攢在一塊,在某一個領域取得突破,於是就有了深度好奇。

圖丨充滿文藝氣息的呂正東(來源:深度好奇官網)

在自然語言處理領域,許多人認為 Facebook 其實也是領軍人物,但呂正東卻持相反意見。他認為,Facebook 的閒聊機器人也不過是停留在自然語言處理的初級階段,並沒有真正理解文本。呂正東更進一步表示,現在行業變現難,最根本的原因就是技術沒有過關。

「雖然他們是小學生,其實我們在自然語言處理也只能算是個中學生。」呂正東自嘲道:「我想推動行業的邊界。就像是人臉識別,那個行業並不是因為什麼人臉識別才得到發展,而是有了 ImageNet 那樣的資料庫。」

呂正東沒少在 arxiv 上發論文,比如 2014 年發表的《A Parallel and EfficientAlgorithm for Learning to Match》。截止至今,該論文已經被應用了數百次。這是一篇在語義匹配領域奠基性的論文,大多數做語義匹配的科技公司都會用到其中的方法。

雖然呂正東是深度好奇的創始人,不過他並不是 CEO,而是 CTO。深度好奇的三位創始人都是 70 後,也都是在計算機領域發展多年的自身專家。

通用型自然語言處理會有多大市場?

通用型技術的最大特點就是市場大,深度好奇光是在法律方面,就已經有三種細分客戶:消費者、律師事務所、法院。事實上,想要搞清這家公司所面對的市場,就需要了解「語言」的市場。

先從消費者端來說,神經符號系統和搜尋引擎的匹配度是十分高的。2004 年到 2006 年期間,搜尋引擎的爆火推動了整個文本相關的計算機信息技術研究工作。生活在當下的我們,可以明顯感覺到搜尋引擎已經很難滿足人們獲取信息的需求。

在網絡環境下,面對的多是用戶不同的檢索需求和表達不嚴格的信息需求。而面對相同的查詢,可能因為用戶的信息需求不同,或同一用戶不同時間的需求不同,產生了對同樣結果的不滿意。

除了考慮採用更緊湊的數據結構和高效的算法外,自然語言處理可以起到至關重要的作用。在上文中提到,深度好奇有一項業務可以對知識庫進行簡化和歸類,方便人和機器的查詢。在搜尋引擎中,這是一種文本預處理技術,它可以對結果進行分類,面對用戶簡單而充滿歧義的檢索需求時,就能直接在相應的類別中查找,省去了用戶二次篩選的麻煩。

相當於在文檔結構中進行分段管理,按用戶可能需求的文本類別返回用戶,提高了針對性就意味著提高了效率。假設用戶搜索的關鍵詞是「微軟」,那麼他有可能是財經媒體,想要查看微軟財報,也有可能是想和小冰聊天。如果能夠用技術把不同類別的信息進行歸納,那麼用戶只需要在類別中查找他想要的信息就可以了。

其次,用戶的興趣可能不在於「查詢」,而是在「瀏覽」,以獲取某個領域中他們想要的知識。現實中這樣的用戶大有人在,但是他們在搜索中往往只會給出模糊且簡單的關鍵字。那麼,利用自然語言處理技術將網頁預分類,用戶就可以順著這樣的目錄層次找下去,逐步被引導至所需要的信息領域。

Yahoo!的層次目錄就是最好的例子,與之類似的還有 Open Directory Project。不過這些還不夠好,經常出現錯誤引導。比如,搜索「錨草論」,無論怎麼點選都離不開B肝和花錨草,永遠無法跳轉到魔獸世界 8.0 中草藥學錨草 2 級採集的任務物品中。

這是因為傳統的層次目錄沒有對文本信息進行理解,只是把關鍵詞以及其周邊進行了匹配,造成了一種「看似相關」的假象。

如果從呂正東所推動的「神經符號系統」來看,那這個市場就更大了。舉個例子,這項技術可以被用來做個人貸款審批。神經符號系統可以通過貸款人工作狀況、購買物品、性別、婚姻狀況、是否處於問題地區、帳戶存款餘額等訓練數據,就能得出其是否有還款能力的結果。

深度好奇有一家子公司,叫做深融科技。從事的就是普惠金融、保險等業務,這家公司就像呂正東強調的那樣,把被動變成了主動。

神經符號系統是片藍海?

科技公司是把技術變現的重要手段,人工智慧這項技術雖然仍處於起步階段,但是投資者早就開始瞄準「AI+X」了。這是因為人工智慧的基礎研究者們非常多,大量的算法充斥著市場,使得創業者們必須想方設法地找到「X」,才能把技術落地。

放眼全球,截止至今天已經出現了不少神經符號系統的研究者。Van 提出了一種如何將模糊規則輸入神經網絡的方法,從而為進一步的知識表示和知識求精做準備;Tsang 等人提出了一種新的模糊規則表示方法(FPRs),每條模糊規則都有兩種權重——局部權重和全局權重,再去利用不同的權重獲取知識。

然而,國內的研究現狀卻遠不如國外,從 1997 年至今,關鍵字為「神經符號」或者是「符號神經」的論文少之又少。因此,把這項技術變現的公司就更少了。

但是需要注意,獨特不一定好用。任何一項好的技術,它存在的前提就是要經歷市場的考驗,深度好奇也不例外。雖然呂正東的研究工作從很久前就開始了,但是這家公司僅成立不到一年。

呂正東表示,「雖然我們剛完成了天使輪融資,但是今年開始已經陸續有收入了。」

樂天派的創始人

深度好奇在先前已完成的天使輪融資金額為 1000 萬元人民幣,目前正在尋求 A 輪融資,數額約為 6000 萬到 1 億元人民幣。

據鯨準平臺的數據顯示,在自然語言處理相關的創業公司中,2017 年 9 月一共有 24 個投資項目,但今年迄今卻僅有 11 項,整體來看是處於下滑趨勢的。這類創業公司中,有超過 40% 的企業處於種子輪或天使輪,而完成 Pre-A 和 A 輪融資的則佔 30%。

自然語言處理類創業公司有一個特點,就是成立時間大多在 2016 年,佔比 18.95%。2015 年和 2017 年總和約為 20%。從人工智慧這個大類來看,2015 年、2016 年、2017 年成立的創業公司是相對平均的,均為 15% 左右。

整個人工智慧版塊的趨勢相對平穩,不像自然語言處理類這樣存在明顯的下滑。這可能是一個風向,代表著投資者對後者的看法。這其實很好的呼應了呂正東說過的話:「不是應用不行,而是技術沒達標。」

值得注意的是,在國內的融資列表中,做複雜語言理解的創業公司確實不多,而國外相關公司的狀況,又難與國內的創業公司類比。或許真像呂正東希望的那樣,他們能夠突破自然語言處理的邊界,在技術上達到 DeepMind 的高度。每一個科研工作者都有著一個造夢的心,這位樂天派的創始人也不例外。

源創專欄介紹:

社會的發展離不開科技,這個理念是無數莘莘學子努力鑽研科學技術的動力源泉。為了回饋於社會,他們把獲得的研究成果發展成產品,或許是解決方案,亦或是硬體,這便是所謂的技術轉化商用。不過做企業和實驗室搞科研是根本上的兩碼事,前者更需要的是渠道以及市場。自從人類發明了交易,流通終究是資本逐利的遊戲。縱使是再高端的技術,若經受不住市場的衝刷洗禮,依然在劫難逃。DeepTech 深科技作為一家從科學到科技,從科技到產業的內容知識服務提供者,我們執著於最先進的技術,同時也願意為這些高新技術型創業公司鋪路。通過深入企業內部,讓市場以及大眾來了解企業如何塑造出這些技術。這種創業公司的報導也致力於服務投資者,給予他們新鮮的投資方向。除此之外,我們也希望一些想要創業,或者正在創業卻找不清方向的高新技術人士能夠在閱讀他人創業的過程中得到啟發,早日步入正軌。我們會報導怎樣的企業?基於創業這個特點,DeepTech 深科技會報導處於早期的創業公司,大約是在種子輪到 A+輪之間。這樣的篩選範圍是為了保證報導能夠更加有可讀性,一些融完了 B 輪、C 輪的企業,他們往往已經找到了自身的發展方向,相關的報導只能起到點綴的作用,並不能幫上什麼大忙。相反的,對於剛開始創業的人來說,如果能夠起到作用,幫助資本與市場了解認知這些高新創業公司,那將是我們莫大的光榮。我們會怎樣報導?一篇合格的創業報導,理應寫清這家公司所在做的具體項目以及創始團隊的背景,就好像一份縮減版的招股書。因此我們需要對這家企業的創始人進行專訪,以便獲取優質的獨家素材。在這之後,我們也會給出獨立的觀點,比如如何評價這家公司的業務以及模式,它是否符合當下的市場需求等等。報導並不完全等於打廣告,這其中的差別在於媒體要保持一種客觀的態度,這也是 DeepTech 深科技所堅持的立場作法。當然這還不算完,上文提到,這是一篇同時服務於創業者以及投資者的系列,因此我們會對這家創業公司所處的領域進行分析,例如該行業目前的資本狀況如何,是否歡迎新玩家登陸等等。最後,當此系列所處同一領域的企業積攢了一定數量時,我們會製作「總集篇」。回顧這些公司,看看他們的經營狀況如何,以及這些創業者是否還保持著那份衝動的初心。根據目前規劃,「源創---鴻繹智庫DeepTech 投創集」專欄將自即日起,每兩周刊出一期。怎樣聯繫我們?正如讀者們往常看到的一樣,DT 君無所不通,也無所不及。如果你是一位正在初期的高新技術創業者,那麼無論是什麼行業,無論身處何方,我們都十分歡迎。動動你的手指,將你的創業公司簡介、創始團隊簡介以及聯繫方式發給我們,你就會在不久後收到我們的回覆。聯繫郵箱:zhuanlan@mittrchina.com 聯繫

相關焦點

  • 專欄| 神經符號系統:讓機器善解人意
    機器之心專欄作者:深度好奇研究組(DC-SQUAD)深度學習和符號智能的結合將是下一代自然語言理解的新範式,也是解決自然語言理解這個困難任務的唯一路徑。最經典的兩個人工智慧思想實驗——圖靈測試和中文房間,都是圍繞自然語言理解來構建的。自然語言理解在人工智慧技術體系中的重要性不言而喻,它一方面承載著機器和人的交流,另一方面直達知識和邏輯。自然語言理解也是人工智慧學者孜孜以求的聖杯,機器學習的巨擘 Michael I.
  • 神經符號系統: 讓機器善解人意
    自然語言理解在人工智慧技術體系中的重要性不言而喻,它一方面承載著機器和人的交流,另一方面直達知識和邏輯。自然語言理解也是人工智慧學者孜孜以求的聖杯,機器學習的巨擘Michael I. Jordan就曾經在Reddit上的AMA(Ask Me Anything)欄目中暢想用十億美元建立一個專門用於自然語言理解的實驗室。那麼究竟什麼是自然語言理解呢?
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。這家搜索巨頭表示現在已經將神經機器翻譯(neural machine translation)集成到了其網頁版和移動版的翻譯應用之中,這意味著它可以一次性翻譯一整段句子,而不只是像之前一樣只能一個詞一個詞地翻譯。谷歌在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。
  • CNCC 2019 | 劉群:基於深度學習的自然語言處理,邊界在哪裡?
    而目前在神經網絡機器翻譯框架下,神經網絡可以很好地捕捉句子的結構,無需進行句法分析,系統可以自動獲得處理複雜結構句子翻譯的能力。機器翻譯的成功是一個比較特殊的例子,這是因為它的源語言和目標原因的語義都是精確對應的,所以它只要有足夠的數據而並不需要其他的支撐,就能取得較好的效果。 現在的自然語言處理系統大部分,還只是流於對詞語符號之間的關係建模,沒 有對所描述的問題語義進行建模,即對客觀世界建模。
  • 自然語言處理 NLP 發展簡史
    但 IBM 旗下的 Fortran 表處理語言卻未能支持符號運算的遞歸、條件表達式、動態存儲分配及隱式回收等功能。於是麥卡錫帶領由 MIT 學生組成的團隊開發了一門全新的表處理語言 LISP,賦予了程式語言更強的數學計算能力。LISP 語言後來也被稱為人工智慧的「母語」,成為早期人工智慧研究人員的程式語言。
  • 自然語言處理深度學習的7個應用
    此外,這個問題可以用某種方式加以解決,將多個類分配給一個文本,即所謂的多標籤分類。如給一個源tweet預測多個#標籤。一種神經概率語言模型,20033、 語音識別語音識別是理解說了什麼的問題。…語音識別的任務是將包含自然語言話語的語音映射成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並藉助一個分類模型實現語音到字母的轉譯。)—458頁,深度學習,2016.
  • 自然語言處理系列之人機之間的巴別塔之謎【一】
    本文從「人機互動的本質」入手,重點解析自然語言處理中的難點及潛在機會,竹間智能自然語言系列專欄文章第一篇,雷鋒網(公眾號:雷鋒網)已獲授權。如果我們希望人工智慧可以「徵服語言」,那麼也許我們應該從徵服小學課本開始。對於計算機來說,相比於其他所有的學科,它最擅長的也許就是最抽象、最理性的數學了。數學的語言,相較於別的科目,更強調精確。數學建立在毫不含糊的邏輯之上,那麼用於描述數學的語言,當然也就必須精準無誤。事實上,對於用單純數字和符號表示的數學,計算機是可以辨認和理解的,這當然也是計算機被創造出來的初衷。
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    「人工智慧」包含兩個關鍵點:自動化智能人工智慧的目標推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能人工智慧三大階段階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。
  • 中國的自然語言處理領域的人工智慧公司
    前面已經說過,自然語言處理包括了三個方面:語音識別、自然語言理解與語音合成。這三方面分別解決了三個問題:聽清楚別人在說什麼,理解別人說的意思,根據聽到的與理解到的對話內容回答別人的問題。據《網際網路周刊》了解,清華大學自然語言處理與社會人文計算實驗室、北京大學計算機科學技術研究所語言計算與網際網路挖掘研究室、哈工大機器智能技術與自然語言處理實驗室、中科院自動化研究所語音語言技術研究組、南京大學自然語言處理研究組、復旦大學自然語言處理研究組等都對自然語言處理有深入的研究。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文第一部分介紹了自然語言處理的基本概念,作者將 NLP 分為自然語言理解和自然語言生成,並解釋了 NLP 過程的各個層級和應用,這一篇論文很適合讀者系統的了解 NLP 的基本概念。隨後,本論文介紹了各種應用於 NLP 的模型,包括卷積神經網絡、循環神經網絡、長短期記憶和門控循環神經網絡等,這一些模型加上其它如注意力機制那樣的技巧就能實現十分強大的能力,如機器翻譯、問答系統和情感分析等。
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    01什麼是自然語言處理 自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。 從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例
    但這種方法會有一個很大的問題,那就是前面提到的維度災難,而這裡要實現的神經網絡語言模型(Neural Network Language Model),便是用神經網絡構建語言模型,通過學習分布式詞表示(即詞向量)的方式解決了這個問題。
  • ACL論文 | 深度學習大神新作,神經網絡的自然語言翻譯應用
    Manning進行了關於神經機器翻譯(NMT)的講座。神經機器翻譯是一種簡單的新架構,可以讓機器學會翻譯。該方法雖然相對較新,已經顯示出了非常好的效果,在各種語言對上都實現了最頂尖的表現。神經網絡在自然語言處理方面,未來有巨大的應用潛力。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • 亞馬遜開源神經機器翻譯框架Sockeye:基於Apache MXNet的NMT平臺
    隨著神經機器翻譯(NMT)技術的不斷演進,越來越多的科研機構和公司選擇開源自己的項目,讓更多人能夠開發出自己的 NMT 模型。此前,清華大學開源了神經機器翻譯工具包 THUMT,谷歌也推出了基於 TensorFlow 的 NMT 模型搭建教程。
  • 自然語言處理必讀:5本平衡理論與實踐的書籍
    本書適合所有人,無論以前的編程經驗如何,只要你想學如何編程並分析書面語言,就可以讀它。」如上所述,這本書絕對實用。雖然你肯定會在進行過程中得到概念解釋,但毫無疑問,這本書的確是為那些希望用Python實現NLP解決方案的人而設計的。
  • 用於自然語言處理的4個業務應用
    這就是為什麼機器翻譯——自然語言處理的雛形——以二戰中破譯技術為藍本。開發者希望機器翻譯可以把俄文翻譯為英文。結果慘不忍睹,但是編碼人員堅持這一點,一種新型的機器學習誕生了。由於一家公司如果不能翻譯的話就無法在國際市場上發展,所以自然語言處理是一項從一開始就有商業案例的技術。今天,自然語言處理就像通信本身一樣,是企業工作內容的一部分。
  • 年中盤點|2020最炙手可熱的10家AI晶片初創公司
    這家位於美國加州埃爾多拉多的初創公司,於去年秋天走出「隱身模式」,在今年舉行的CES 2020上首次展示自己的計算架構,並從投資者那裡獲得了8700萬美元的投資。Blaize主要針對汽車和智能視覺等場景,其中,Graph Streaming Processor處理器克服了AI處理成本和尺寸方面的障礙,效率是現有產品的10到100倍。
  • 科普自然語言處理
    它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。