詞性識別在人工智慧的自然語言處理領域具有極其重要的意義,可以說是更深層次分析和處理的主要基礎。
* 自然語言處理:指的是在計算機和人工智慧領域中,利用電腦或人工智慧神經網絡來對人類語言進行理解、分析和其他進一步處理的一門科學。
一般來說,對於一篇文章、一段文字,人工智慧系統對它進行分析的過程從分句、分詞開始,之後就是詞性分析了,這一步在英文中稱作Part of Speech(簡稱POS),然後才能進一步做專有名詞或短語分析(NER)、句子成分分析、分句從句分析、情感分析、主旨提取、關鍵詞提取等更高級的分析處理。可想而知,如果詞性分析的結果不準確,對於後面的各個步驟都會造成極大的困難。
目前主流的自然語言處理框架或系統,大都還存在著一些不足,以至於在詞性分析這麼基礎的步驟上還不能做到很準確,並且可能是為了儘量貼近於人類對語言的一般理解,因此還存在一些理論上的硬傷,對於電腦或者神經網絡來處理還存在不妥之處,我們下面將看看其中的一些問題。另外,我們也要看到,自然語言處理作為一門已經發展了很久的計算機科學,加上最近這些年來的人工智慧大潮的推動,還是取得了很大的進展的,在一些方面上,比我們日常語言教學中的理論體系還是做出了一些有益的改進的,我們也將做一些討論。
由於在語言分析中,英語適用範圍較廣,在自然語言處理中比較典型,相對也比較容易一些,因此我們在這裡舉例也將以英語為主。本文就從比較有特色的「限定詞」來說起。
關於限定詞(determiner)
在我國的英語教育體系中,「限定詞」這個概念提的很少,而是經常與形容詞的概念相混淆,而實際上這個限定詞的詞性劃分非常重要,與形容詞存在明顯的不同,對於人工智慧的語義分析也有很大的指導意義。
簡單地理解,限定詞是指給它所修飾的名詞指定一個「範圍」的詞,這與形容詞是給出名詞的一些特性、特點、特徵有本質上的不同,例如: red apples 指的是這些蘋果的顏色是紅的,紅色是蘋果自身的特徵屬性,因此 red 是形容詞;而 many apples 中的 many,是指「很多」而不是一個蘋果,「很多」這個概念與蘋果本身無關,僅是表示它們的數量,因此 many 應該是限定詞。
將限定詞和形容詞區分開來,在人工智慧分析句法和語義時有著相當重要的意義,例如,many red apples中,是「限定詞+形容詞+名詞」的結構,限定詞一般是需要放在形容詞之前的,而如果是兩個形容詞很多情況下是可以調換順序的,限定詞+形容詞就不行,這對人工智慧做一些語法和語義推斷時具有指導意義。
但是我們在大多數可以接觸到的詞典中(包括一些主流的在線詞典)中,查詢 many 這個詞給出來的主要還是形容詞(adj.)。在大多數教材中,尤其是中小學教材中也仍然依循形容詞的說法。
而某些在人工智慧領域已經做了一些研究和實踐的IT公司,則有所改進,例如下圖中
已經給出了det.也就是限定詞這個詞性。限定詞在自然語言處理領域一般記作「DT」或「DET」。(determiner的簡寫)。
指示代詞與限定詞
還有一些其他的典型例子,如「this」、「that」這一類在我們教育體系中稱之為「指示代詞」,如下圖所示:
而實際上,代詞(Pronoun)的概念所起的作用應該是代替名詞的,也就是說是名詞性的,而this這種詞有時候確實是起修飾作用而非指代作用的。例如:
This is an apple.
這裡的this是代替後面的apple作主語,因此應該是代詞,而:
This apple is red.
這裡的this顯然是限定詞,用來限定本句話中所說的蘋果的範圍(是「這個」蘋果,而不是「那個」或其他蘋果)。
有些說法說this這時候是形容詞,如上面的截圖所示,但我們之前已經說過,形容詞是表示名詞的一些屬性、特定的該物體自有的特徵,限定詞才是限定名詞的範圍、數量等非物體自身屬性的東西。
而一些人工智慧引擎將第一句中的This認為是限定詞,這也是不合理的,例如谷歌(Google)公司的自然語言分析引擎是這樣分析的:
它把this認為是限定詞(用DET來代表),而如下圖所示,對於This apple is red. 這句話,它也認為this是限定詞。
這種劃分方法也不能說是錯誤,因為解決問題的方法可以不止一種。但是,限定詞屬於修飾名詞的詞,代詞則是代替名詞也就是名詞性質的詞,這兩個性質在人工智慧分析句子時顯然處理會有所不同,因此如果像谷歌的引擎這樣,把this在這兩種情況下都認成限定詞,會對後續的處理造成不可避免的困擾。第二句中的this是應該作為主語來看待處理的,限定詞從其詞義上來想,按理說是不應該做名詞性的句子成分的(主語屬於名詞性成分,Noun Phrase)。
冠詞與限定詞
在我們常見的語法體系中,冠詞包括不定冠詞(a、an)和定冠詞(the),這在自然語言處理體系中,也是劃歸到限定詞範疇的,因為a或an是表示「一個」後面的名詞,the則是表示「指定的」(即說話雙方或者作者與讀者之間由於上下文都知道的某個東西)後面的名詞,其實都是限定範圍而不是修飾物體本身,所以也都是限定詞。冠詞實際上可以算作限定詞中的一個細分子類。
物主代詞與限定詞
在我們的語法體系中,物主代詞也是定義的比較混亂的一類詞,國內往往把my、her、your這一類詞和mine、hers、yours都稱做物主代詞。但顯然這兩類詞從本質上不同,前一類詞是修飾性的,後面一定有名詞,而後一類詞則本身就是名詞性的,確實是代詞,稱作物主代詞是合理的。我們的解釋也能自圓其說,說前一類詞是「形容詞性的物主代詞」,後一類詞是「名詞性的物主代詞」,但這種分法顯然有些硬湊的感覺,在計算機處理時也會造成混亂。
實際在自然語言處理中,由於前一類詞(my、her、your等)也具備限定詞的定義,是指定名詞範圍的,因此也可以說成是限定詞,但一般把它再分配一個細分的詞性,就叫做代詞所有格(記作PRP$),這樣也算一個方法,起碼比記作名詞性的代詞要好。
數量詞與限定詞
與前面相似,數詞和量詞也具有限定的作用,例如:
ten apples 限定了蘋果的數量是10個
a lot of apples 指定了很多的蘋果
some apples 則指定是「一些」蘋果
所以數詞是限定詞中的一種,自然語言處理中一般記作「CD」(即cardinal number,基數詞),量詞也在英語中地位不是很突出,可以直接算入限定詞這一大類中。
而
The second apple is green.
這一句中,second是序數詞,也屬於限定詞。
再細說數詞的話,實際上也分形容詞性的數詞和名詞性的數詞,例如ten apples中的ten是形容詞性的,也就是我們所說的限定詞,而如果說考試得分的時候,I got a ten. 這裡的ten又是名詞性的了,表示所得的分數。這裡我們一般可以把前一個ten記作CDJ,表示形容詞性的數詞(也是限定詞中的一種),後一個ten記作「CDN」,表示是名詞性的數詞。
疑問限定詞
還有就是在疑問句中或引導從句用的一些限定詞,例如:
Whose apple is red?
這裡的whose就是疑問限定詞,表示問的是「誰的」蘋果,表示範圍限定而非蘋果本身的特徵。疑問限定詞一般記作「WDT」,其中的「W」以疑問引導詞常見的開頭的字母「W」而來。再如:
Which apple is yours?
這裡的which也是疑問限定詞。
前位、中位、後位限定詞
限定詞如果要細分的話,還可以分做前位、中位和後位限定詞,它們的區別主要是在同時出現時的順序排列上。例如下面這個短語:
all the two red apples
其中,all是前位限定詞,the是中位限定詞(也是冠詞),two是數詞,也是後位限定詞,這幾種詞的順序是不可以變的,例如不能說 the two all red apples。
另外,當然,red這個形容詞更不能放在限定詞前面,無論是前位、中位還是後位。
最後,要讓計算機理解人類的語言,需要從最基礎的地方開始把語言中的各個要素明確化、數位化、量化,需要把我們常常理解得模模糊糊的概念清晰化,分清理濁,才能讓機器更好地理解與處理,後續我們還將逐步闡述其中的更多知識。