從限定詞開始 - 詞性識別在人工智慧自然語言處理中的不足與改進

2020-12-21 陸滿庭

詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。

* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。

一般來說,對於一篇文章、一段文字,人工智慧系統對它進行分析的過程從分句、分詞開始,之後就是詞性分析了,這一步在英文中稱作Part of Speech(簡稱POS),然後才能進一步做專有名詞或短語分析(NER)、句子成分分析、分句從句分析、情感分析、主旨提取、關鍵詞提取等更高級的分析處理。可想而知,如果詞性分析的結果不準確,對於後面的各個步驟都會造成極大的困難。

目前主流的自然語言處理框架或系統,大都還存在著一些不足,以至於在詞性分析這麼基礎的步驟上還不能做到很準確,並且可能是為了儘量貼近於人類對語言的一般理解,因此還存在一些理論上的硬傷,對於電腦或者神經網絡來處理還存在不妥之處,我們下面將看看其中的一些問題。另外,我們也要看到,自然語言處理作為一門已經發展了很久的計算機科學,加上最近這些年來的人工智慧大潮的推動,還是取得了很大的進展的,在一些方面上,比我們日常語言教學中的理論體系還是做出了一些有益的改進的,我們也將做一些討論。

由於在語言分析中,英語適用範圍較廣,在自然語言處理中比較典型,相對也比較容易一些,因此我們在這裡舉例也將以英語為主。本文就從比較有特色的「限定詞」來說起。

關於限定詞(determiner)

在我國的英語教育體系中,「限定詞」這個概念提的很少,而是經常與形容詞的概念相混淆,而實際上這個限定詞的詞性劃分非常重要,與形容詞存在明顯的不同,對於人工智慧的語義分析也有很大的指導意義。

簡單地理解,限定詞是指給它所修飾的名詞指定一個「範圍」的詞,這與形容詞是給出名詞的一些特性、特點、特徵有本質上的不同,例如: red apples 指的是這些蘋果的顏色是紅的,紅色是蘋果自身的特徵屬性,因此 red 是形容詞;而 many apples 中的 many,是指「很多」而不是一個蘋果,「很多」這個概念與蘋果本身無關,僅是表示它們的數量,因此 many 應該是限定詞。

將限定詞和形容詞區分開來,在人工智慧分析句法和語義時有著相當重要的意義,例如,many red apples中,是「限定詞+形容詞+名詞」的結構,限定詞一般是需要放在形容詞之前的,而如果是兩個形容詞很多情況下是可以調換順序的,限定詞+形容詞就不行,這對人工智慧做一些語法和語義推斷時具有指導意義。

但是我們在大多數可以接觸到的詞典中(包括一些主流的在線詞典)中,查詢 many 這個詞給出來的主要還是形容詞(adj.)。在大多數教材中,尤其是中小學教材中也仍然依循形容詞的說法。

而某些在人工智慧領域已經做了一些研究和實踐的IT公司,則有所改進,例如下圖中

已經給出了det.也就是限定詞這個詞性。限定詞在自然語言處理領域一般記作「DT」或「DET」。(determiner的簡寫)。

指示代詞與限定詞

還有一些其他的典型例子,如「this」、「that」這一類在我們教育體系中稱之為「指示代詞」,如下圖所示:

而實際上,代詞(Pronoun)的概念所起的作用應該是代替名詞的,也就是說是名詞性的,而this這種詞有時候確實是起修飾作用而非指代作用的。例如:

This is an apple.

這裡的this是代替後面的apple作主語,因此應該是代詞,而:

This apple is red.

這裡的this顯然是限定詞,用來限定本句話中所說的蘋果的範圍(是「這個」蘋果,而不是「那個」或其他蘋果)。

有些說法說this這時候是形容詞,如上面的截圖所示,但我們之前已經說過,形容詞是表示名詞的一些屬性、特定的該物體自有的特徵,限定詞才是限定名詞的範圍、數量等非物體自身屬性的東西。

而一些人工智慧引擎將第一句中的This認為是限定詞,這也是不合理的,例如谷歌(Google)公司的自然語言分析引擎是這樣分析的:

它把this認為是限定詞(用DET來代表),而如下圖所示,對於This apple is red. 這句話,它也認為this是限定詞。

這種劃分方法也不能說是錯誤,因為解決問題的方法可以不止一種。但是,限定詞屬於修飾名詞的詞,代詞則是代替名詞也就是名詞性質的詞,這兩個性質在人工智慧分析句子時顯然處理會有所不同,因此如果像谷歌的引擎這樣,把this在這兩種情況下都認成限定詞,會對後續的處理造成不可避免的困擾。第二句中的this是應該作為主語來看待處理的,限定詞從其詞義上來想,按理說是不應該做名詞性的句子成分的(主語屬於名詞性成分,Noun Phrase)。

冠詞與限定詞

在我們常見的語法體系中,冠詞包括不定冠詞(a、an)和定冠詞(the),這在自然語言處理體系中,也是劃歸到限定詞範疇的,因為a或an是表示「一個」後面的名詞,the則是表示「指定的」(即說話雙方或者作者與讀者之間由於上下文都知道的某個東西)後面的名詞,其實都是限定範圍而不是修飾物體本身,所以也都是限定詞。冠詞實際上可以算作限定詞中的一個細分子類。

物主代詞與限定詞

在我們的語法體系中,物主代詞也是定義的比較混亂的一類詞,國內往往把my、her、your這一類詞和mine、hers、yours都稱做物主代詞。但顯然這兩類詞從本質上不同,前一類詞是修飾性的,後面一定有名詞,而後一類詞則本身就是名詞性的,確實是代詞,稱作物主代詞是合理的。我們的解釋也能自圓其說,說前一類詞是「形容詞性的物主代詞」,後一類詞是「名詞性的物主代詞」,但這種分法顯然有些硬湊的感覺,在計算機處理時也會造成混亂。

實際在自然語言處理中,由於前一類詞(my、her、your等)也具備限定詞的定義,是指定名詞範圍的,因此也可以說成是限定詞,但一般把它再分配一個細分的詞性,就叫做代詞所有格(記作PRP$),這樣也算一個方法,起碼比記作名詞性的代詞要好。

數量詞與限定詞

與前面相似,數詞和量詞也具有限定的作用,例如:

ten apples 限定了蘋果的數量是10個

a lot of apples 指定了很多的蘋果

some apples 則指定是「一些」蘋果

所以數詞是限定詞中的一種,自然語言處理中一般記作「CD」(即cardinal number,基數詞),量詞也在英語中地位不是很突出,可以直接算入限定詞這一大類中。

The second apple is green.

這一句中,second是序數詞,也屬於限定詞。

再細說數詞的話,實際上也分形容詞性的數詞和名詞性的數詞,例如ten apples中的ten是形容詞性的,也就是我們所說的限定詞,而如果說考試得分的時候,I got a ten. 這裡的ten又是名詞性的了,表示所得的分數。這裡我們一般可以把前一個ten記作CDJ,表示形容詞性的數詞(也是限定詞中的一種),後一個ten記作「CDN」,表示是名詞性的數詞。

疑問限定詞

還有就是在疑問句中或引導從句用的一些限定詞,例如:

Whose apple is red?

這裡的whose就是疑問限定詞,表示問的是「誰的」蘋果,表示範圍限定而非蘋果本身的特徵。疑問限定詞一般記作「WDT」,其中的「W」以疑問引導詞常見的開頭的字母「W」而來。再如:

Which apple is yours?

這裡的which也是疑問限定詞。

前位、中位、後位限定詞

限定詞如果要細分的話,還可以分做前位、中位和後位限定詞,它們的區別主要是在同時出現時的順序排列上。例如下面這個短語:

all the two red apples

其中,all是前位限定詞,the是中位限定詞(也是冠詞),two是數詞,也是後位限定詞,這幾種詞的順序是不可以變的,例如不能說 the two all red apples。

另外,當然,red這個形容詞更不能放在限定詞前面,無論是前位、中位還是後位。

最後,要讓計算機理解人類的語言,需要從最基礎的地方開始把語言中的各個要素明確化、數位化、量化,需要把我們常常理解得模模糊糊的概念清晰化,分清理濁,才能讓機器更好地理解與處理,後續我們還將逐步闡述其中的更多知識。

相關焦點

  • 多變的動詞 - 詞性識別在人工智慧自然語言處理中的不足與改進
    動詞是句子的核心因此,在人工智慧的自然語言處理領域,對於動詞的處理也是重中之重。很遺憾的是,目前對於動詞的處理,在自然語言處理領域也並非完美,甚至可以說是還有相當大的問題。以英語為例(也包括很多拉丁語系的其他語種以及一些非拉丁語系的語種),我們知道,動詞相較於名詞或其他詞性的詞的最大不同就是存在很多變體,大多數是時態上的,也有單複數等情況帶來的變形。並且,同一種情況不同的單詞還可能存在不同,會有特殊的變化。
  • 自然語言處理之詞性標註
    如在漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。 從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。
  • 人工智慧編程:基於LSTM網絡的自然語言領域中的詞性預測
    介紹  在語言中,一個單詞是有詞性的,比如動詞、形容詞、名詞等等,我們可以使用LSTM來做詞性的判斷。做詞性判斷可以有兩種方式:  第一種是把一句話當作是一個序列數據,然後這句話中的每個詞都是一個詞向量,對應RNN的一個時間步,我們將其輸入到神經網絡中,然後每一個時間步都會有一個輸出,每個輸出表示輸入到該時間步的單詞的詞性。
  • 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。自然語言是人類知識的抽象濃縮表示,而自然語言理解是人工智慧研究領域中極具挑戰的一個分支。上次,《自然語言處理在 2017 年有哪些值得期待的發展?》
  • 科普丨什麼是NLP(自然語言處理)
    自然語言處理(NLP)是一種專業分析人類語言的人工智慧。你使用過蘋果公司的人工智慧語音助手Siri嗎?有沒有好奇過Siri是如何理解你說的(大部分的)話的?Siri的工作過程就是自然語言處理在實踐中應用的一個鮮活案例。NLP正在成為我們生活中不可或缺的一部分,其與機器學習、深度學習一起達成的高度遠遠優於幾年前取得的成就。
  • 送10本HanLP作者新書《自然語言處理入門》,人人都能看懂的NLP入門書
    《自然語言處理入門》就是這些更輕鬆的方式中的一種,何晗在這本書的前言中講到:在我的開源自然語言處理項目 HanLP 流行起來後,我接觸了大量 NLP 初學者,我看到不少人碰到了我當初苦苦思索的問題。許多用戶不理解「統計自然語言處理」的設計理念,對 「語料」「訓練」「模型」等概念十分陌生。同時,如果你缺乏自然語言處理基礎的話,也無法掌握 HanLP 中的高級功能。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    來源:TechWeb.com.cn【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。
  • 自然語言處理的應用前景
    自然語言處理(NLP)的定義 自然語言處理(NLP)是人工智慧技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,並且在商業中的應用正在迅速增長。 雖然自然語言處理(NLP)這一術語最初指的是人工智慧系統的閱讀能力,但它後來成為所有計算語言學的一種通俗說法。
  • 創新工場提出中文分詞和詞性標註模型,性能分別刷新五大數據集
    出品 | AI科技大本營(ID:rgznai100) 中文分詞和詞性標註是中文自然語言處理的兩個基本任務。並通過非監督方法構建詞表,實現對特定領域的未標註文本的利用,進而提升對未登錄詞的識別。 例如,在「部分居民生活水平」這句話中,到底有多少可能成為詞的組塊?單字可成詞,如「民」;每兩個字的組合可能成詞,如「居民」;甚至四個字的組合也可能成詞,例如「居民生活」。
  • 自然語言處理中的9個不可不知的研究熱點
    IJCAI是人工智慧領域的頂級國際學術會議,在演講中,賈珈基於IJCAI 2020的錄用論文內容,按算法層面和任務層面兩個維度,從無監督預訓練、跨語言學習、元學習和少樣本學習、遷移學習、誤差、知識融合、問答、自然語言生成、多模態這九個方面介紹了關於自然語言處理的主要成果和研究趨勢。
  • IBM在自然語言處理方面的創新幫助企業更好地理解業務語言
    為了幫助企業應對這一挑戰,IBM在IBM Watson Assistant中推出了改進後的自然語言理解(Natural Language Understanding,NLU)新模型,用於意圖分類。在基準測試中,與商業方案相比,新的意圖檢測算法更為準確。(1)IBM 研究院不斷改進自然語言處理功能,並融入到 IBM Watson 中。
  • 自然語言處理之文本相似度計算
    文 | 光大科技大數據部 盧格潤在金融科技的業務場景下,我們不可避免地應用到自然語言處理(NLP)的技術去解決問題,比如智能問答系統、資訊輿情的分析等……在自然語言處理中,很多實際應用具有共性問題,本文就以文本相似度的計算為例介紹自然語言處理解決問題的思路。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    :自然語言理解(NLU)和語言翻譯是一系列重要應用的關鍵,包括大規模識別和刪除有害內容,以及連接世界各地不同語言的人們。在整個自然語言處理領域,NLU 系統的發展速度如此之快,以至於它在許多現有的基準上已經達到了一個極限。為了繼續提高技術水平,Facebook 與 Deepmind Technologies、紐約大學及華盛頓大學合作開發了一套全新的基準、排行榜和 PyTorch 工具包(https://jiant.info/),Facebook 希望這些成果將進一步推動自然語言處理領域的研究進展。
  • 語言模型上
    N-gram實際應用舉例說了這麼N-gram語言模型的背景知識,咱們再來看看N-gram語言模型在自然語言處理中有哪些常見應用。PS:此部分以原理介紹為多,具體的技術實現細節請參考文中連結或者google。
  • 北郵成立人工智慧研究院:整合全校AI資源,面向社會開展廣泛合作
    據大數據文摘了解,北郵希望通過人工智慧研究院整合全校的研究力量,目前已有50多位老師和500多位研究生加入。人工智慧研究院負責人由郭軍副校長擔任,研究院將面向社會開展廣泛合作。據了解,北郵人工智慧研究院未來將側重視頻監控、自然語言理解、AI+醫療,以及人工智慧娛樂四大板塊。
  • 復旦桂韜:當NLP邂逅Social Media——構建計算機與網絡語言的橋梁
    復旦大學桂韜為大家帶來報告《當NLP邂逅Social Media--構建計算機與網絡語言的橋梁》。桂韜,復旦大學自然語言處理實驗室博士生,導師是張奇和黃萱菁教授。一直致力於網絡語言的自然語言處理研究,包括信息抽取、序列標註、強化學習、元學習等。
  • 語法|基礎語法,從搞定單詞詞性開始
    語法涉及到詞法和句法,其實就涉及到單詞,句子成分和句子三大方面;學好語法,首先要了解句子的最小單位——單詞,每個單詞都有自己的詞性,不同的詞在句子中擔任不同的成分(職務),所以要學好語法,首先要了解單詞的十大詞性,詳見下圖本著由易到難的原則,
  • 人工智慧識別植物很給力,幫您秒變機智「探花郎」
    早在2016年,由中國科學院植物研究所與百度等單位合作開發的「智能花卉識別系統」,讓「拍花識植物」成為現實。該「看圖識花」系統已經實現了針對生活中1000多種常見的植物約80%的識別。而要想進一步提高植物識別的準確率,提高樣本量和樣本準確度是關鍵。人工智慧的普及,植物科普也迎來了新局面。
  • ...萬小軍、黃民烈談自然語言生成現狀:關於創作、多樣性和知識融合
    儘管深度神經語言模型讓生成一段通順的自然語言越來越容易,但人類的創作能力卻不止於此。在此次演講中,宋睿華副教授從創作的獨特性出發,探討了人工智慧是否可以像人類創作者一樣寫出新穎的比喻,或編排出有戲劇衝突的臺詞。 萬小軍則認為,能夠生成多樣化的文本是很多文本生成應用的重要需求之一。