多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進

2020-12-10 陸滿庭

動詞從語法結構上來說,往往是句子的核心,絕大多數句子都是含有動詞的,形成謂語。並且,在複雜句中,謂語動詞的多少直接意味著從句或者分句的多少。

動詞是句子的核心

因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。如果對一句話的動詞分析不準確,往往會導致計算機對整個句子的分析出現偏差。很遺憾的是,目前對於動詞的處理,在自然語言處理領域也並非完美,甚至可以說是還有相當大的問題。

以英語為例(也包括很多拉丁語系的其他語種以及一些非拉丁語系的語種),我們知道,動詞相較於名詞或其他詞性的詞的最大不同就是存在很多變體,大多數是時態上的,也有單複數等情況帶來的變形。並且,同一種情況不同的單詞還可能存在不同,會有特殊的變化。

另外,英語中還存在很多特殊的動詞,它們出現的頻次遠遠高於一般的普通動詞,例如「be」、「do」、「have/has」等,而且這些動詞往往是與其他動詞搭配使用,表示特殊的含義。

既然動詞是句子的核心,對於動詞這些千奇百怪的情況如果處理不好,顯然會影響計算機對整個句子的語法乃至於語義理解的準確程度。但是如同我們前面所說的,目前的自然處理領域對於動詞的處理還是不太完美的,讓我們來看看目前存在的一些問題。

我們來看看下面這句句子:

He is playing the ball.

這是非常簡單的一個現在進行時的句子,我們先來看看著名的史丹福大學開放的自然語言處理系統分析的結果:

史丹福大學NLP引擎fen'xi'jie'guo

最後一欄「Tagging」即是該系統對這句話的詞性標註,其中He是代詞(PRP),the是限定詞(DT),ball是名詞(NN),這幾個都沒有問題。對於is,該系統識別為「VBZ」,其中,VB代表「verb」即動詞的意思,Z是附加的一個後綴字母,表示是現在時的第三人稱單數形式;而對於playing,該系統認為是「VBG」,G表示是現在進行時(從現在進行時後綴「-ing」而來)。

目前主要的自然語言處理引擎中,動詞一般按其幾種變形分別標記為:

VB——表示動詞原形

VBP——表示動詞的一般現在時

VBZ——表示動詞一般現在時的第三人稱單數

VBG——表示動詞的現在分詞(也就是現在進行時)

VBD——表示動詞的過去式(源自後綴「-ed」)

VBN——表示動詞的過去分詞

而谷歌(Google)公司的分析引擎有的是按照這個約定來做的,有的則稍有不同。

谷歌引擎fen'xi'jie'guo

如上圖所示,可以看到,谷歌的分析引擎將動詞全部標記為VERB,然後通過時態(tense)這個附加屬性來表示動詞的變形。

從上面的例子可以看出,目前主流的自然語言處理系統對動詞的分析存在的主要問題之一就是:對一些特殊動詞沒有區分開來,做特殊的處理。類似be動詞,還有do、have等動詞在英語中實在是太特殊了,很多時態、語氣、疑問、強調等語法現象都與這些動詞緊密相關,因此只有處理好了這些動詞,才有助於詞性識別後進一步的處理。

在《小仙英語伴讀》系統提供的改進動詞詞性標註體系中,將動詞類的詞性做了細化,將普通動詞全部改為「VV」開頭的標記,即:VV表示普通動詞原形,VVG表示普通動詞的現在分詞、VVD表示普通動詞的過去式等等。而規定將be動詞全部以「VB」開頭,規定do動詞全部以「VD」開頭,have動詞全部以「VH」開頭。舉例來說,VBG將代表be動詞的現在進行時「being」,VDD將代表do動詞的過去式「did」等等。

那麼對於上面例子中的英語句子,我們分析結果將是:

小仙引擎ci'xing分析結果

可以看到,「is」被識別為「VBZ」,即be動詞的第三人稱單數(第三行是動詞原形,在這裡分析出is的原型是be),而「playing」則被識別為「VVG」,也就是普通動詞的現在分詞。

基於這樣精細化的識別結果,再進行下一步的處理會方便很多,例如進行句子成分劃分時,我們可以依據「VBZ + VVG = 謂語」這個規則劃分出這句話的句子結構:

ju'zi'cheng'fen'hua'fen

如上圖這樣,我們就可以把is playing理所當然地看作是兩個動詞合成的複合謂語,然後整個句子也能被判斷出是主謂賓結構的第三類句型。而如果按一般分析引擎分析成兩個無差別的動詞,則要實現這一步不能說完全不行,但會麻煩很多。

進一步地,我們還可以依據「VBZ + VVG = 現在進行時」的規則來對句子的時態進行準確判斷。

句子時態分析

自然語言處理中,對於動詞的處理如果做得好,能夠相對比較輕鬆地駕馭哪怕是很複雜的句子。例如,根據動詞是句子的語法核心這一基本原理,我們可以劃分出複雜句中的從句或分句,下面就是一個例子。

The ant climbed onto it and floated in safety to the bank.

對於這句複合句看看我們能做到什麼地步吧。

複雜句型的shi'bie

首先,我們識別出了這句話是由兩個分句組成的;然後又識別出了這是個並列複合句而不是有從屬關係(即有主句和從句)的複合句;之後清晰地劃分出了各個從句和從句中的句子成分(主語、謂語、狀語等);甚至我們還能補充出第二個分句中被省略掉的主語(the ant);最後,我們神奇地提取出了句子中的核心部分,即去掉了句子中從語法上來說非必要的內容(例如修飾性的狀語等),給出了這條複雜句子最精簡但又從語法上「不傷筋骨」的部分,這對於後續的語義處理具有非常重要的意義。

動詞在自然語言處理中的重要性,相信到現在大家已經有了一些了解了,但其實還不僅於此,我們以後將繼續給大家介紹人工智慧領域中自然語言處理方面的內容。

相關焦點

  • 從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進
    詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
  • 人工智慧實踐應用——自然語言處理入門介紹
    自然語言處理(NLP)是計算機科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。因此,自然語言處理是與人機互動的領域有關的。在自然語言處理面臨很多挑戰,包括自然語言理解,因此,自然語言處理涉及人機互動的面積。
  • 人工智慧難點之——自然語言處理(NLP)
    (NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 人工智慧繼續進步的關鍵,自然語言處理概述
    從上世紀五十年代就已經出現的自然語言處理有著怎樣廣泛的應用?從語言學的角度來看,無處不在的自然語言處理又是如何理解文本的?
  • 獨家| 人工智慧學習篇7:自然語言處理開源框架
    01 概述自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智慧領域中的重要方向,研究實現人與計算機之間用自然語言進行有效交互的各種理論和方法。如圖1所示,自然語言處理的基礎研究領域包括文本分類、依存分析、命名實體識別、詞性標註、中文分詞、情感分析、信息抽取、文本摘要等,這些任務主要在於「處理」,為後續進一步的「理解」和「應用」 提供基礎。
  • 讓產品更了解世界,自然語言處理掀開人工智慧新篇章
    人工智慧的不斷衍生和進化衝刷了我們對這個世界的原生認知,人類社會也在人工智慧的快速發展下迎來了智能新時代。作為未來科技發展的尖端領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別、推薦引擎等。
  • 自然語言處理之詞性標註
    如在漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。 從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。
  • 自然語言處理中「中文分詞」技術中「自動切分」的幾點理解
    enjoy~概述在人工智慧中,自然語言處理是一門極其深奧的領域,自然語言處理在廣義上分為兩部分,第一部分自然語言理解,是指讓電腦「聽懂」人類的語言;第二部分為自然語言生成,是指把計算機數據轉化成人類可以聽懂的語言;而自然語言理解和產生的前提是對語言能夠做出全面的解析,而在中文中,漢語詞彙是語言獨立運用的最小語言單位
  • 人工智慧之自然語言處理初探
    編輯導讀:自然語言處理是人工智慧的一個細分領域,是一個龐大的系統的工程。本文將從自然語言處理的簡介、句法分析、發展現狀、話語分割、知識體系、指代消解六個方面展開分析,希望對你有幫助。最近在梳理人工智慧的一個細分領域自然語言處理相關知識點。隨著查閱的資料越來越多,在梳理的過程中,也越來越發現自己的無知。
  • NLP(自然語言處理)掃盲
    自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,是人工智慧(AI)的一個子領域,包括:1.句法語義分析:對於給定的句子,進行分詞、詞性標記、命名實體識別和連結、句法分析、語義角色識別和多義詞消歧。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    並著重介紹了大數據和自然語言處理的發展,對自然語言處理在大數據中扮演的角色作了探討。「人工智慧」包含兩個關鍵點:自動化智能人工智慧的目標推理自動學習&調度機器學習自然語言處理計算機視覺機器人通用智能人工智慧三大階段階段 1——機器學習:智能系統使用一系列算法從經驗中進行學習。階段 2——機器智能:機器使用的一系列從經驗中進行學習的高級算法,例如深度神經網絡。
  • 自然語言處理,到底在「處理」些什麼?
    隨著自然語言處理技術的發展,計算器對文字對處理能力也達到了一個新的層次。本文中,筆者將為我們解答:自然語言處理究竟擁有什麼「能力」,結合具體應用場景能做哪些事兒?技術邊界在哪?一、詞法分析基於大數據和用戶行為的分詞後,對詞性進行標註、命名實體識別,消除歧義 。
  • 人工智慧自然語言處理技術拉動產業升級引擎
    作為未來科技發展的前沿領域,人工智慧在技術應用方面有很多細分領域,比如深度學習、推薦引擎、計算機視覺、智慧機器人、自然語言處理、實時語音翻譯、視覺內容自動識別等。其中的自然語言處理,是人工智慧領域中的一個重要方向。
  • 人工智慧領域的關鍵核心技術:自然語言處理
    人工智慧(Artificial Intelligence,簡稱AI)作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)是AI領域的關鍵核心技術,它推動著語言智能的持續發展和突破,並越來越多地應用於各個行業。
  • 達觀數據:中文對比英文自然語言處理NLP的區別綜述
    相應的自然語言處理(Natural Language Processing,NLP)技術因而被稱為是「人工智慧皇冠上的明珠」。和英文中名詞、動詞、形容詞三大類詞彙相互獨立的「分立模式」不同,中文更類似「包含模式」,即形容詞作為一個次類包含在動詞中,動詞本身又作為次類被名詞包含,而且這個詞性的轉換過程非常微妙,缺乏表音語言中的前後綴指示。例如「他吃飯去了」中「吃飯」是動詞,只需要句式稍加變換為「他吃飯不好」,此時「吃飯」就搖身一變成名詞了。「熱愛編程」、「挖掘數據」中,「編程」、「挖掘」等詞,既可以是名詞也可以是動詞。
  • 5分鐘了解什麼是自然語言處理技術
    自然語言處理(Nature Language Processing,NLP)被譽為「人工智慧技術皇冠上的明珠」,一方面表明了它的重要性,另一方面也顯現出了它的技術難度。但NLP並不像語音識別、圖像識別等人工智慧技術一樣為人熟知,接下來的5分鐘,我們來快速了解NLP技術,感受它的魅力。
  • AI自然語言處理(NLP)領域常用的16個術語
    自然語言處理(NLP)是人工智慧領域一個十分重要的研究方向。NLP研究的是實現人與計算機之間用自然語言進行有效溝通的各種理論與方法。本文整理了NLP領域常用的16個術語,希望可以幫助大家更好地理解這門學科。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    隨著網絡的普及,人類進入了信息爆炸的時代,機器需要處理的數據越來越多、類型越來越豐富。而網絡中大量存在的文本、圖片、視頻往往都屬於非結構化數據。在這之中,文本的數量又是非常多的,且其中大部分都屬於上文提到的自然語言。雖然信息量大,但由於計算機無法理解,這時為了能夠分析和利用這些文本信息,就需要用到NLP技術。
  • 一本書精通Python自然語言處理
    自然語言處理(NLP)是有關計算語言學與人工智慧的研究領域之一。
  • 人工智慧閱卷「翻車」 其實是「翻」在了自然語言處理
    AI閱卷系統則涉及到對語言文字的評判,涵蓋很多方面,如語法、語義等,會大量運用到自然語言處理技術。「自然語言處理技術是人工智慧的一個重要分支,研究利用計算機對自然語言進行智能化處理,基礎的自然語言處理技術主要圍繞語言的不同層級展開,包括音位(語言的發音模式)、形態(字、字母如何構成單詞、單詞的形態變化)、詞彙(單詞之間的關係)、句法(單詞如何形成句子)、語義(語言表述對應的意思)、語用(不同語境中的語義解釋)、篇章(句子如何組合成段落)7個層級。」