從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進

2020-12-10 陸滿庭

詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。

* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。

一般來說,對於一篇文章、一段文字,人工智慧系統對它進行分析的過程從分句、分詞開始,之後就是詞性分析了,這一步在英文中稱作Part of Speech(簡稱POS),然後才能進一步做專有名詞或短語分析(NER)、句子成分分析、分句從句分析、情感分析、主旨提取、關鍵詞提取等更高級的分析處理。可想而知,如果詞性分析的結果不準確,對於後面的各個步驟都會造成極大的困難。

目前主流的自然語言處理框架或系統,大都還存在著一些不足,以至於在詞性分析這麼基礎的步驟上還不能做到很準確,並且可能是為了儘量貼近於人類對語言的一般理解,因此還存在一些理論上的硬傷,對於電腦或者神經網絡來處理還存在不妥之處,我們下面將看看其中的一些問題。另外,我們也要看到,自然語言處理作為一門已經發展了很久的計算機科學,加上最近這些年來的人工智慧大潮的推動,還是取得了很大的進展的,在一些方面上,比我們日常語言教學中的理論體系還是做出了一些有益的改進的,我們也將做一些討論。

由於在語言分析中,英語適用範圍較廣,在自然語言處理中比較典型,相對也比較容易一些,因此我們在這裡舉例也將以英語為主。本文就從比較有特色的「限定詞」來說起。

關於限定詞(determiner)

在我國的英語教育體系中,「限定詞」這個概念提的很少,而是經常與形容詞的概念相混淆,而實際上這個限定詞的詞性劃分非常重要,與形容詞存在明顯的不同,對於人工智慧的語義分析也有很大的指導意義。

簡單地理解,限定詞是指給它所修飾的名詞指定一個「範圍」的詞,這與形容詞是給出名詞的一些特性、特點、特徵有本質上的不同,例如: red apples 指的是這些蘋果的顏色是紅的,紅色是蘋果自身的特徵屬性,因此 red 是形容詞;而 many apples 中的 many,是指「很多」而不是一個蘋果,「很多」這個概念與蘋果本身無關,僅是表示它們的數量,因此 many 應該是限定詞。

將限定詞和形容詞區分開來,在人工智慧分析句法和語義時有著相當重要的意義,例如,many red apples中,是「限定詞+形容詞+名詞」的結構,限定詞一般是需要放在形容詞之前的,而如果是兩個形容詞很多情況下是可以調換順序的,限定詞+形容詞就不行,這對人工智慧做一些語法和語義推斷時具有指導意義。

但是我們在大多數可以接觸到的詞典中(包括一些主流的在線詞典)中,查詢 many 這個詞給出來的主要還是形容詞(adj.)。在大多數教材中,尤其是中小學教材中也仍然依循形容詞的說法。

而某些在人工智慧領域已經做了一些研究和實踐的IT公司,則有所改進,例如下圖中

已經給出了det.也就是限定詞這個詞性。限定詞在自然語言處理領域一般記作「DT」或「DET」。(determiner的簡寫)。

指示代詞與限定詞

還有一些其他的典型例子,如「this」、「that」這一類在我們教育體系中稱之為「指示代詞」,如下圖所示:

而實際上,代詞(Pronoun)的概念所起的作用應該是代替名詞的,也就是說是名詞性的,而this這種詞有時候確實是起修飾作用而非指代作用的。例如:

This is an apple.

這裡的this是代替後面的apple作主語,因此應該是代詞,而:

This apple is red.

這裡的this顯然是限定詞,用來限定本句話中所說的蘋果的範圍(是「這個」蘋果,而不是「那個」或其他蘋果)。

有些說法說this這時候是形容詞,如上面的截圖所示,但我們之前已經說過,形容詞是表示名詞的一些屬性、特定的該物體自有的特徵,限定詞才是限定名詞的範圍、數量等非物體自身屬性的東西。

而一些人工智慧引擎將第一句中的This認為是限定詞,這也是不合理的,例如谷歌(Google)公司的自然語言分析引擎是這樣分析的:

它把this認為是限定詞(用DET來代表),而如下圖所示,對於This apple is red. 這句話,它也認為this是限定詞。

這種劃分方法也不能說是錯誤,因為解決問題的方法可以不止一種。但是,限定詞屬於修飾名詞的詞,代詞則是代替名詞也就是名詞性質的詞,這兩個性質在人工智慧分析句子時顯然處理會有所不同,因此如果像谷歌的引擎這樣,把this在這兩種情況下都認成限定詞,會對後續的處理造成不可避免的困擾。第二句中的this是應該作為主語來看待處理的,限定詞從其詞義上來想,按理說是不應該做名詞性的句子成分的(主語屬於名詞性成分,Noun Phrase)。

冠詞與限定詞

在我們常見的語法體系中,冠詞包括不定冠詞(a、an)和定冠詞(the),這在自然語言處理體系中,也是劃歸到限定詞範疇的,因為a或an是表示「一個」後面的名詞,the則是表示「指定的」(即說話雙方或者作者與讀者之間由於上下文都知道的某個東西)後面的名詞,其實都是限定範圍而不是修飾物體本身,所以也都是限定詞。冠詞實際上可以算作限定詞中的一個細分子類。

物主代詞與限定詞

在我們的語法體系中,物主代詞也是定義的比較混亂的一類詞,國內往往把my、her、your這一類詞和mine、hers、yours都稱做物主代詞。但顯然這兩類詞從本質上不同,前一類詞是修飾性的,後面一定有名詞,而後一類詞則本身就是名詞性的,確實是代詞,稱作物主代詞是合理的。我們的解釋也能自圓其說,說前一類詞是「形容詞性的物主代詞」,後一類詞是「名詞性的物主代詞」,但這種分法顯然有些硬湊的感覺,在計算機處理時也會造成混亂。

實際在自然語言處理中,由於前一類詞(my、her、your等)也具備限定詞的定義,是指定名詞範圍的,因此也可以說成是限定詞,但一般把它再分配一個細分的詞性,就叫做代詞所有格(記作PRP$),這樣也算一個方法,起碼比記作名詞性的代詞要好。

數量詞與限定詞

與前面相似,數詞和量詞也具有限定的作用,例如:

ten apples 限定了蘋果的數量是10個

a lot of apples 指定了很多的蘋果

some apples 則指定是「一些」蘋果

所以數詞是限定詞中的一種,自然語言處理中一般記作「CD」(即cardinal number,基數詞),量詞也在英語中地位不是很突出,可以直接算入限定詞這一大類中。

The second apple is green.

這一句中,second是序數詞,也屬於限定詞。

再細說數詞的話,實際上也分形容詞性的數詞和名詞性的數詞,例如ten apples中的ten是形容詞性的,也就是我們所說的限定詞,而如果說考試得分的時候,I got a ten. 這裡的ten又是名詞性的了,表示所得的分數。這裡我們一般可以把前一個ten記作CDJ,表示形容詞性的數詞(也是限定詞中的一種),後一個ten記作「CDN」,表示是名詞性的數詞。

疑問限定詞

還有就是在疑問句中或引導從句用的一些限定詞,例如:

Whose apple is red?

這裡的whose就是疑問限定詞,表示問的是「誰的」蘋果,表示範圍限定而非蘋果本身的特徵。疑問限定詞一般記作「WDT」,其中的「W」以疑問引導詞常見的開頭的字母「W」而來。再如:

Which apple is yours?

這裡的which也是疑問限定詞。

前位、中位、後位限定詞

限定詞如果要細分的話,還可以分做前位、中位和後位限定詞,它們的區別主要是在同時出現時的順序排列上。例如下面這個短語:

all the two red apples

其中,all是前位限定詞,the是中位限定詞(也是冠詞),two是數詞,也是後位限定詞,這幾種詞的順序是不可以變的,例如不能說 the two all red apples。

另外,當然,red這個形容詞更不能放在限定詞前面,無論是前位、中位還是後位。

最後,要讓計算機理解人類的語言,需要從最基礎的地方開始把語言中的各個要素明確化、數位化、量化,需要把我們常常理解得模模糊糊的概念清晰化,分清理濁,才能讓機器更好地理解與處理,後續我們還將逐步闡述其中的更多知識。

相關焦點

  • 多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進
    動詞是句子的核心因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。很遺憾的是,目前對於動詞的處理,在自然語言處理領域也並非完美,甚至可以說是還有相當大的問題。以英語為例(也包括很多拉丁語系的其他語種以及一些非拉丁語系的語種),我們知道,動詞相較於名詞或其他詞性的詞的最大不同就是存在很多變體,大多數是時態上的,也有單複數等情況帶來的變形。並且,同一種情況不同的單詞還可能存在不同,會有特殊的變化。
  • 自然語言處理之詞性標註
    如在漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。 從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。
  • 自然語言處理中「中文分詞」技術中「自動切分」的幾點理解
    enjoy~概述在人工智慧中,自然語言處理是一門極其深奧的領域,自然語言處理在廣義上分為兩部分,第一部分自然語言理解,是指讓電腦「聽懂」人類的語言;第二部分為自然語言生成,是指把計算機數據轉化成人類可以聽懂的語言;而自然語言理解和產生的前提是對語言能夠做出全面的解析,而在中文中,漢語詞彙是語言獨立運用的最小語言單位,因此對漢語中詞彙的切分顯得尤為的重要,隨著自然語言的應用逐漸發展
  • 單模型完成6項自然語言處理任務
    語言技術平臺(Language Technology Platform, LTP)是哈工大社會計算與信息檢索研究中心(HIT-SCIR)歷時多年研發的一整套高效、高精度的中文自然語言處理開源基礎技術平臺。
  • 達觀數據:綜述中英文自然語言處理的異和同
    中英文語言的差異十分鮮明,英語以表音(字音)構成,漢語以表義(字形)構成,印歐和漢藏兩大語系有很大的區別。儘管全世界語言多達 5600 種,但大部數人類使用的語言集中在圖中的前 15 種(覆蓋全球 90% 以上人群)。其中英語為母語和第二語的人數最多,近 14 億人,是事實上的世界通用語。其次是漢語,約佔世界人口的 23%。
  • AI皇冠上的明珠:人工智慧自然語言處理技術
    在人工智慧出現之前,機器能夠自動處理少量結構化的數據。隨著網絡的普及,人類進入了信息爆炸的時代,機器需要處理的數據越來越多、類型越來越豐富。而網絡中大量存在的文本、圖片、視頻往往都屬於非結構化數據。在這之中,文本的數量又是非常多的,且其中大部分都屬於上文提到的自然語言。雖然信息量大,但由於計算機無法理解,這時為了能夠分析和利用這些文本信息,就需要用到NLP技術。
  • 中文分詞和詞性標註:為拓展工業場景應用夯基—新聞—科學網
    在7月5日-10日舉行的自然語言處理(NLP)領域頂級學術會議 ACL 2020上,來自創新工場大灣區人工智慧研究院的兩篇入選論文,正是針對中文自然語言處理的類似問題,各自提出了「鍵-值記憶神經網絡的中文分詞模型」和「基於雙通道注意力機制的分詞及詞性標註模型」,將外部知識(信息)創造性融入分詞及詞性標註模型,有效剔除了分詞「噪音」誤導,大幅度提升了分詞及詞性標註效果。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    來源:TechWeb.com.cn【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。
  • 創新工場提出中文分詞和詞性標註新模型可提升工業應用效率
    在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。
  • 創新工場提出中文分詞和詞性標註新模型 可提升工業應用效率
    在NLP中,中文分詞和詞性標註是中文自然語言處理的兩個基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。
  • 清華大學劉知遠:自然語言理解到底難在哪兒?
    新智元推薦  來源:知乎 NLP日知錄作者:劉知遠【新智元導讀】自然語言處理(NLP)是人工智慧中非常重要的子領域,但同時也是最難的子領域之一。作為人工智慧關注的三大信息類型(語音、視覺、語言)之一,自然語言文本是典型的無結構數據,由語言符號(如漢字)序列構成。要實現對自然語言的表意的理解,需要建立對該無結構文本背後的語義結構的預測。因此,自然語言理解的眾多任務,包括並不限於中文分詞、詞性標註、命名實體識別、共指消解、句法分析、語義角色標註等,都是在對文本序列背後特定語義結構進行預測。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    出品 | AI科技大本營(ID:rgznai100) 中文分詞和詞性標註是中文自然語言處理的兩個基本任務。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。 例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。
  • 什麼是自然語言處理?它為什麼比計算機視覺更重要?
    就計算機的應用而言,據科學統計,用於數學計算的僅佔語言傳播的10%,用於過程控制、特定科學任務的語言文字加起來不到5%,其餘 85%左右都是用於語言文字的信息處理。處理就是指理解、轉化、生成等過程。自然語言處理,就是利用計算機的計算能力對人類的自然語言的形、音、 義等信息進行處理,即對字、詞、句、篇章這些不同層次的信息,進行輸入、輸出、識別、分析、理解、生成操作,並對這些信息進行加工。進而實現人機或是機器與機器間的信息交流,是全球人工智慧界、計算機科學和語言學界所共同關注的重要問題。
  • IBM在自然語言處理方面的創新幫助企業更好地理解業務語言
    為了幫助企業應對這一挑戰,IBM在IBM Watson Assistant中推出了改進後的自然語言理解(Natural Language Understanding,NLU)新模型,用於意圖分類。在基準測試中,與商業方案相比,新的意圖檢測算法更為準確。
  • 12種自然語言處理的開源工具
    在過去的幾年裡,自然語言處理(NLP)推動了聊天機器人、語音助手、文本預測等這些滲透到我們的日常生活中的語音或文本應用程技術的發展。目前有著各種各樣開源的 NLP 工具,所以我決定調查一下當前開源的 NLP 工具來幫助你制定開發下一個基於語音或文本的應用程式的計劃。
  • 自然語言處理中的事件抽取綜述
    自然語言處理中的事件抽取綜述 lucy 發表於 2021-01-07 15:08:34 本系列文章主要總結近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    「這些數據集反映了一些兩年前就免費提供的最難監督的語言理解任務,」他說。「我們沒有理由相信SuperGLUE能夠檢測到自然語言處理的進一步進展,至少不能完全相信。」但SuperGLUE測試並不是完美的,也不是一種完整的人類語言能力測試。
  • 基於百度LAC2.0的詞雲圖生成——各大分詞工具實戰比較
    1.前言詞法分析是自然語言處理的基本工具,主要包括分詞、詞性標註和實體識別等功能。目前各類詞法分析工具大行其道,有免費開源的,也有商業收費的;有高校研發的,也有企業開發的;有支持Java的,也有支持Python的,甚至還有支持安卓平臺的。
  • 中文分詞最佳紀錄刷新,兩大模型分別解決中文分詞及詞性標註問題
    二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。
  • 人工智慧終可「識別人心」
    計算機現在可以比人類更好地識別字符、圖像、物體、聲音、語言,甚至是視頻畫面中的物體。[24]百度用了11940個小時的英語口語來訓練他們的語音網絡,現在百度的網絡轉錄語音的能力可以媲美人類。基於算法,機器也可以創造聽起來很自然的短語字幕,以此描述圖像內容。