深度| 顛覆喬姆斯基的語言學習理論?沒那麼容易

2020-12-13 機器之心Pro

選自Scientific American作者:Jeffrey Lidz機器之心編譯

9 月初,Yann LeCun 轉發了一條推特,推薦 Scientific American 上 的一篇顛覆喬姆斯基語言學理論的文章,並認為此文在喬姆斯基的普遍語法理論的棺木上又多釘了幾枚釘子。然而,Scientific American 近日又發了一篇文章推翻了之前的那篇文章,認為其對喬姆斯基的理論存在根本性誤解。看來圍繞喬姆斯基的爭論遠未止息......

沒讀過 Ibbotson 和 Tomasello(以下 I&T)最近在科學美國人(Scientific American)上發表的文章「Evidence Rebuts Chomosky's Theory of Language Learning」的朋友,或許會對文章的標題不明所以。同時你也可能在猜測,這篇文章中或許會列舉很多具體的實證來駁斥諾姆喬姆斯基的語言學習理論。但是,文章中並沒有這樣的實證論述。回顧喬姆斯基的語言學思想,這位語言學生成學派泰鬥並沒提出任何關於語言習得的具體理論。他的思想是通過對人類可能的語言空間的初始條件定義來論述語言習得在理論上的可能。這也是 I&T 無法在其文中列舉具體實證來反駁喬姆斯基的原因之一。另外,I&T 也幾乎沒有找到任何與生成學派的語言習得理論完全相左的強有力證據。I&T 對喬姆斯基語言學思想的根本性誤解是其文章中沒有相關論述的原因所在。

諾姆喬姆斯基(Noam Chomsky),麻省理工學院榮譽退休教授,有史以來論文被引用數量第 8 的學者。

20 世紀 50 年代到 60 年代,喬姆斯基提出了一個研究人類語言機能的範式。這個範式包含三部分:(1)語言學知識的正式明確性模型的構建,(2)普遍語法規則的檢索對可能語法空間的精準勾勒,(3)語法知識和語法使用可以被視為不同的方法性假說。這項研究曾經宣稱其最終的理論是為了解釋普遍語法規則的運用是語言習得理論的一個重要組成部分。語法規則將和語言學習者的經驗及其他能力共同推進語言學習者語法知識的增長。在喬姆斯基的研究中,對語言學習者的語言習得作用因素進行了明確的區分,這種區分與生物體的生長是由其基因結構、外部環境以及其他內部因素三部分互相作用的區分類似。就如沒有生物學家會認可基因結構理論和生物進化理論等價一樣,任何語言學家(當然喬姆斯基本人除外)都不會認可語法結構和語言習得理論是等價的。

人類可能習得的語言理論能夠為語言習得提供理論支撐的論斷部分來源於刺激貧乏論,刺激貧乏論認為相比於普通孩子所在的語句環境,我們在以後的成長過程中可以逐漸學到更加複雜的語言知識。這個學說的論證可以遵從以下例子的步驟進行:

基本語料:

(1)a.Val is a good volleyball player and Al is too

b.Val is a better volleyball player than Al is

在這兩句話中,第二個從句中有一個未明確指出的謂語,這個謂語來源於第一個從句(即:a good volleyball player)。為了簡化,我們把(1a)稱為並列省略(coordinate ellipsis),(1b)稱為比較省略(comparative ellipsis)。我們還進行進一步區分,在省略謂語的句子裡,中括號中的補充文字即為所省略的謂語內容。

(2) a. Val is a good volleyball player and Al is [a good volleyball player] too

b. Val is a better volleyball player than Al is [a good volleyball player]

這些省略的結構對孩子們的口語來說是很普遍的。我們同樣能觀察到這些未說出口的謂語動詞和他前期能理解多從句(multi-clause)之間的關係,即使是在孩子們沒有聽到許多這種多從句(multi-clause)類型的句子時候。

(3) a. Val is a good volleyball player and I think that Al is [a good volleyball player] too

b. Val is a better volleyball player than I think that Al is [a good volleyball player]

c. Val is a good volleyball player and I heard you say that Al is [a good volleyball player] too

d. Val is a better volleyball player than I heard you say that Al is [a good volleyball player]

然而,當嵌入從句是關係從句的時候,這兩種省略句將會區分開來。並列省略(coordinate ellipsis)仍然能組成一些英語的句子,但是比較省略(comparative ellipsis)就不能這樣(意味著不能組成英語句子)。

(4) a. Valentine is a good value-ball player and I heard a rumor that Alexander is [a good volleyball player] too

b. * Valentine is a better value-ball player than I heard a rumor that Alexander is [a good volleyball player]

這裡要解釋的是,為什麼這個兒童學習者在為並列和比較省略組織表達時,不會將沉默的謂詞以同樣的方式用在兩個例子中。這個兩個例子都可以被解釋為等同於在(1)和(3)的所有句子中的主句謂語。然而,如果省略的謂詞是在一個關係從句裡面,它就可以被解釋為等同於並列省略而不是比較省略中的主句謂語。這可能會得出一個類比,但是事實上不可以。英語學習者不會遇上像(4a)或(4b)那樣的句子,但是有時我們都會意識到英語中可能會有像(4a)那樣的句子嗎,它會是什麼樣子的?

這種喬姆斯基式的答案只能提供部分解答。它表示像 (1b) 中那樣的比較結構(comparative constructions)有一個與問題共同的結構特徵。要了解這能夠使 (4b) 不可能的原因,讓我們先考慮一下被構建出來的問題。類似 (5) 這樣的成分問題(constituent questions)可以將句子起始處的一個短語和該句子中後面的一個動詞聯繫起來:

(5) What did Ellen take?

這裡的動詞 take 是及物動詞,它需要一個直接賓語,這使得 (6a) 是一個可能的句子而 (6b) 並不是:

(6) a. Ellen took a picture

b. * Ellen took

在 (5) 中,直接賓語是 what,其出現在句子開頭,但其作用和 (6a) 中的 a picture 這個短語是一樣的。

這種依賴(dependency)也可以跨多個從句進行延伸:

(7) a. What do you think that Ellen took? 

b. What did you hear Tonia say that Ellen took?

但如果這個動詞本身就在一個關係從句(relative clause)中,那麼這種依賴就不能形成:

(8) * What did you hear a rumor that Ellen took?

像 (7b) 和 (8) 這樣的句子都不在典型的兒童語言學習者的經驗範圍內,但我們都能認識到 (7 a/b) 是可能的句子而 (8) 並不是。

如果我們通過檢查許多依賴和許多語言來在英語中的這些觀察上進行構建,那麼我們會發現人類語言中(至少)存在兩種依賴(dependency)。一類可被構建成關係從句,另一類則不能。給定這兩種分類,我們可能會提出這些依賴的類別內建於學習者的語言機能中。這個觀點會改變語言學習問題的本質。學習者的工作並不是去發現被學習的語言的每一種屬性,而是(在這個領域內)去發現該語言中的依賴是屬於哪種類別。對其中依賴進行了分類之後,學習者就會知道它們之中哪些特定的元素可以被用在關係從句中(如:並列省略(coordinate ellipsis)),或不能這麼用(如:比較省略(comparative ellipsis)和成分問題)。該學習者並不需要搞清楚每一種依賴能否出現在關係從句中,他只需要明白一種依賴屬於哪一類。根據這個類別,與相關性(relativization)的交互作用便遵循一開始定義這些類別的普遍語法(Universal Grammar)原則。

I&T 宣稱:這都是錯的,而且事實已經證明了這一點。但他們給出的證據只牽扯到語言特徵中最簡單最容易觀察的部分,比如一個動詞是否需要一個直接賓語,這些對於構建一種學習理論來說太過簡單了,因為它們在學習者的經驗中是非常豐富的。喬姆斯基的觀點允許觀察(observation)、進行類比(analogy making)和分布式分析(distributional analysis)的概念,以解釋它們被學習到的方式,就像 I&T 所支持的基於使用的理論(usage-based theory)一樣。

但當其涉及到高度抽象的和跨語言穩定的性質(如:依賴的分類)時,基於使用的理論就沉默得可疑。這種沉默是可以從這種理論的形狀(shape of the theory)上預見到的。任何曾經精確和正式地學習過學習和歸納(learning and generalization)的人都知道,分布式分析、類比進行和歸納的理論開始於可觀察特徵的類別的陳述(statement)和可投射謂詞(projectible predicates)的類別的陳述——這些謂詞定義了歸納時所遵循的維度(dimensions)。因為基於使用的理論沒有提供歸納的可能維度的規範,那麼它就在設計上沒有給學習者歸納的方式提供解釋;而更重要的是,除了學習者無法使用的數據,其也沒有給與數據一致的歸納提供解釋。

最後,基於使用的理論學家告訴我們:語言知識和語言使用部分獨立的方法原理是一個不連貫的(incoherent)思想,幾乎不能解釋語言的習得。因此,他們認為這種方法原理應當被拒絕。但是,他們既沒有解釋這種不連貫是如何產生的,也沒有解釋語言行為(linguistic behavior)是如何在沒有這種區分的情況下取得成功的。舉一個簡單的例子,我知道如何拼寫 language,但是有時候我打字太快時我會把它寫成 langauge——其中 a 和 u 的位置被寫反了。關於我打字這種情況可以通過兩個因素進行解釋:(1)我對於這個詞的拼寫的正確表示、(2)我的運動規劃和行動系統導致了這一情況,使得序列 g-u-a 的輸入需要交替使用我的左右手,而儘可能快速打字的壓力使得正確交替的模式變得更加困難,從而導致有時候我用左手打出 g-a 序列時,我的右手還沒有來得及按下 u。這是否意味著我並不知道正確的拼寫,還是說我在表示這個語言的拼寫時,80% 是這個方式,20% 是另一種方式?甚至 I&T 也不會這麼想。那麼為什麼我的語言能力會有所不同呢?

為什麼我們說話的過程不能通過類似的方式進行解釋呢?這個過程涉及到我們對知識的整合,其中包括:句子的構建方式、詞的發音方式、概念上的知識、記憶系統、預測過程等等。實際上,識別這種區別能讓我們可以將特定的事實歸屬於我的語法知識或使用這些知識的處理系統。

稍微舉個例子說明一下,考慮一下一致性吸引現象(phenomenon of agreement attraction):

(9) The key to the cabinets is/#are on the table

這個現象是指人們偶爾會在上面這樣的句子中使用 are 而非 is(據 Kay Bock 的研究,在實驗生產的任務中有大約 8% 的可能性),而且在加速的可接受性判斷任務(speeded acceptability judgment task)中,他們甚至無法注意到 are 的怪異。為什麼會發生這種事?一些心理學家認為這和在句子理解的過程中句子的部件在工作記憶(working memory)中的存儲和重新獲取有關。也就是說,使用獨立理解的工作記憶模型並將其應用到句子理解上,這些作者解釋了英語說話者注意或沒有注意到的這種類型的一致性錯誤(agreement errors)。所以,在一些情況中,表現(performance)掩蔽了能力(competence)。這種情況允許我們將解釋分配到語法理論和處理理論上,這使得我們不需要去複雜化我們的主語-動詞一致性的語法理論。這樣的解釋難道沒有那些不能將解釋跨領域分配的解釋科學嗎?明顯不是。

I&T 還宣稱這種知識和使用(用喬姆斯基的術語來說是能力(competence)和表現(performance))之間的區別是有害的,並且削弱了關於語言習得的觀點的可證偽性。但是原因為何?考慮以下情況。所有的語言使用者都是逐漸理解句子的——他們一邊聽句子一邊構建自己的理解,而不是等待句子結束才開始理解。這有時候會帶來問題。比如這個例子:

(10)Put the frog on the napkin in the box.

當聽到這種語句時,我們最初的理解是詞組「on the napkin」是說話者希望把青蛙擺放的位置。隨著對話繼續,我們修改了之前的理解,「on the napkin」是對於「the frog」目前狀態的解釋,相當於「the frog that is on the napkin.」這一修正過程可在被實驗者的視覺軌跡中觀察到。孩子們會難以理解這句話,這從他們的視覺軌跡和行動中都可以看出來,有時他們會把青蛙放在餐巾上。有可能這表示人類在年幼時期這些機制仍未發展完全,這些機制抑制快速理解或反應。實際上,大腦受損的患者和做出錯誤反應的人顯示出了類似的行為。

這種理解困難可以解釋為什麼兒童有時在學習語言上遇到了障礙。例如,Akira Omaki 測試了英語和日語母語的 4 歲兒童對下面一句話的解釋:

Where did Lizzie tell someone that she was going to catch butterflies?

這句話難以理解之處在於「where」和主動詞到底是「tell」還是「catch」。現在,如果把孩子比作增量分析程序,他們可能會難以修改第一印象形成的判斷,我們假定英語兒童會難以分析動詞,他們強烈地傾向於第一個動詞為主動詞。而日語兒童卻存在相反的強烈偏見,因為在日語中這句話的語序會出現顛倒。事實上,這正是 Omaki 的發現,分析系統的性能和可以獨立理解的短語可以解釋孩子的行為。因此,理解系統的機制可以讓我們解釋為什麼同樣的意思不同語言裡會出現不同的表達。

綜上所述,Paul Ibbotson 和 Michael Tomasello 宣稱喬姆斯基語言學已經滅亡,但它仍未引起這一領域的注意。I&T 和它引用的研究一起,沒有證明任何喬姆斯基語言學的核心觀點。它們沒有驗證喬姆斯基在 20 世紀 60 年代理論框架中的邏輯;也沒有驗證這一框架存在的基礎。

相關焦點

  • 現代語言學之父喬姆斯基談深度學習的未來
    我最初聯繫他是想問他,人工神經網絡(ANN)的最新發展是否會促使他重新考慮他著名的語言理論——普遍語法(Universal Grammar)。我們的談話內容涉及深度學習可能存在的局限性,以及神經網絡可以在多大程度上模擬生物大腦,還涉及到了更具哲學性的領域。在這篇文章中,我不會直接引用喬姆斯基教授的話,因為我們的討論是非正式的,但我將嘗試總結其中的要點。
  • 喬姆斯基專訪:深度學習並沒有探尋世界本質
    近日,MIT的 AI 科學家 Lex Fridman 對喬姆斯基進行了專訪,在接受採訪的時候,從外星人談到了語言學,然後談到了深度學習,並探討了人類哲學。他認為深度學習當前都在學習大量的例子,沒有對本質進行探尋。另外,他還認為我們人類的意義由我們自己決定,人類什麼樣的行動就人類存在的意義......
  • 喬姆斯基與中國外語教學—有感著名語言學家喬姆斯基首次中國之旅
    他認為內在語言(I-language)決定外在語言(E-language),而內在語言所形成的語言素養主要是掌握語法等語言屬性,並通過大腦的智力加工成語言能力。喬姆斯基理論不是不對,而是我們了解甚少。他的理論恰是中國外語教育的它山之石。從學術觀點看,知識和能力屬不同範疇,但喬姆斯基肯定知識的作用,認為知識是一種穩定的能力。
  • 喬姆斯基與中國外語教學
    這是喬姆斯基語言學理論的認識論基礎。喬姆斯基的語言學研究不在於對語言現象的分析,而在於解釋現象背後的原因。他所建立的生成語法理論,將過去側重語言本身的研究,轉為對語言生物學屬性的研究,即研究人腦的語言系統,研究人如何獲得語言能力,大大促進了人類認知科學的發展。
  • 幼兒語言學習的特點及基本理論
    這一時期正是幼兒語言接受能力最強的時期,也是語言發展最迅速的時期,這一時期對幼兒進行普通話的教育與培養,幼兒比較容易接受。二、幼兒語言基本理論幼兒的語言是怎麼獲得的,在其發展過程中,什麼因素起了決定作用?為什麼幼兒的語言能在出生後幾年就有這麼驚人的發展速度?
  • 人類的語言是如何誕生的?喬姆斯基之外的一種觀點 by Daniel L. Everett
    目前比較流行的觀點是著名語言學家喬姆斯基的觀點,他提出了「普遍語法」理論,並認為語言的誕生是由於大約5萬年前到10萬年前的單個基因突變而產生的,這種突變使得智人擁有了建構複雜句子的能力。不過,在《語言的誕生》中,語言學家、人類學家埃弗裡特並不認同這個流行的觀點。他認為,語言起源於符號發展。
  • 大師喬姆斯基首度訪華 語言學演講像生物課(圖)
    一位來自北京育才中學的小姑娘幸運地得到了發問機會,當她用斷斷續續的英語向喬姆斯基發問後,這位麻省理工學院教授、美國科學院院士好像被問住了。據了解,一生研究語言的喬姆斯基教授自己也只會說英語和一點法語。但他正好借這個問題,形象解釋了語言學理論研究和具體教授語言學習技巧的不同。  「雖然是同一個詞,但小姑娘說的語法和喬姆斯基腦子中的語法不是一個意思。
  • 3.2.3喬姆斯基的語言觀
    喬姆斯基把語言分為語言能力與語言行為二方面(相當於索緒爾的語言與言語,參見第4章)。語言能力追溯至生理上人類智力裡已有的「普遍語法」,普遍語法加上不同的參數形成各種具體的人類語言,這些參數是由歷史選擇與積累的,並體現為社會擁有的母語的特徵、使用規則、甚至直覺。語言行為是語言的具體使用與結果。傳統語言學是從語言行為研究語言的,在喬姆斯基看來這是經驗主義的做法。
  • 喬姆斯基在線訪談
    問題1:您如何看待當代臨床神經心理學的研究對您的語言加工觀點的影響?按Gallistel的說法,所有動物都基於專門的「學習機制」(learning me chanisms)、「學習本能」以特定的方式進行學習,這些「學習機制」、「學習本能」實質上就是構成神經迴路的腦內器官,所構成的神經迴路使得動物能進行某一特定的計算,例如:動物或多或少都能反射性地遠離「十分危險的環境」;在這個意義上可以說,人類基於特定「語言器官」(languageorgan)的語言獲得是本能的。
  • 憤怒的語言
    他在原始狀態下和部落土人共同生活了好些年,學習他們極其艱澀的語言,冒著生命危險與瘧疾和巨蟒作鬥爭,有時甚至還要經受來自部落土人的攻擊。 計劃總趕不上變化:這位傳道者原本打算把《聖經》翻譯成當地語言,教土著信仰上帝,結果反倒是他自己放棄了信仰,用學者般的虔誠,決心去理解這些令他心生敬愛的土著人。
  • 幼兒語言學習天賦和黃金期,它真的存在嗎?
    我們都有天賦的語言學習能力,這種能力尤其在幼兒時期表現的尤為突出。那麼那些研究理論於此有關呢?一、喬姆斯基的語言天賦假設推論喬姆斯基提出自然語言的共性表現在兩個方面,一是內容普遍性,二是形式普遍性。人的語言知識包括兩部分:一部分是全人類語言所共有的,稱為普遍語法;另一部分是各民族語言所特有的,稱為個別語法。前者是人類通過生物進化和遺傳先天獲得的,後者是人出生後在一定的語言環境中通過學習掌握的。
  • R語言做深度學習
    閱讀本文,你可以獲得:R語言做深度學習工作環境創建R語言快速實現神經網絡模型R語言做深度學習的資料深度學習的應用場景感謝RStudio公司開發的keras包,使得R語言可以利用keras深度學習框架來做深度學習,具有簡潔,易學,好用等特性。什麼是Keras?
  • 喬姆斯基:語言學的「當時」和「現在」
    利用計算理論和對解釋的深度研究所提供的洞見,尋求解釋性理論的時機已經成熟。這一努力便是生物語言學框架下的生成語法事業。矛盾很快就出現了:解釋性理論(生成語法)的元素遠遠超出了分類學程序的範圍。結構主義的原則(即語言是一個訓練和習慣的問題,語言通過類推進行擴展)難以再維持下去。
  • 喬姆斯基:教育市場化的危害
    喬姆斯基,美國語言學家、哲學家,麻省理工學院語言學榮休教授,被《紐約時報》稱為「可能是目前還健在的最重要的知識分子」。那麼,在民主制度和教育之間存在哪些實際關聯?這些關聯,真的像尼爾•波茲曼(Neil Postman)在《教育的終結》(The End of Education)一書中所指出的那樣,主要是建立在一種虛幻的迷思基礎上嗎?諾姆•喬姆斯基:對於這個問題,我們似乎很難找到簡潔明了的答案。教育的實際狀況包含正反兩方面的因素。
  • 深度學習的理論來源|一個鍊金術師的自述(2)
    在本系列的上篇裡,我聲稱現在深度學習的理論基礎非常匱乏。有好多小夥伴在看了文章以後和我說,深度學習理論不匱乏呀,好多人在做這方面的理論工作呢!我覺得我們對「理論」的定義可能不太一樣。深度學習專家 Yann LeCun 也說,正是二十年前理論上對深度學習不可行、不可用的預測,耽誤了深度學習在應用上的大發展。直到最近,神經網絡還是理論上應該不可行、實際上難以實現(由於計算機性能的限制)的模型。到了最近的十五年,尤其是過去十年,計算機算力的發展允許「科學家」們不管不顧悲觀的理論預測,在實踐中嘗試用反向傳播來訓練複雜的神經網絡。
  • 陶大程院士:深度學習「泛化」理論的回顧與前沿
    在報告中,陶教授回顧了深度學習理論的發展,並介紹了最近在深度學習理論研究方面的進展,具體包括,為什麼深層結構優於淺層結構?為什麼隨即梯度下降算法對於理解深度學習的泛化能力非常重要?以及深度學習模型的損失曲面有什麼樣的幾何性質?
  • 計算語言學與深度學習
    在研討會結束時舉行了一場專題討論,在討論中尼爾·勞倫斯(Neil Lawrence)說:「自然語言處理的處境現在有點像只夜間公路上的兔子,被『深度學習』這部高速行駛『汽車』的『前大燈』晃瞎了眼睛,只能束手待斃。」計算語言學者們應當認真對待這個論斷。對我們而言,深度學習就是我們研究的終點了嗎?這些關於深度學習威力的預測從何而來呢?
  • 用數學邏輯之美揭示語言結構之妙
    20世紀50年代提出的自動機理論來源於圖靈在1936年提出的算法計算模型,這種模型被認為是現代計算機科學的基礎。圖靈的工作首先導致了麥克羅克–皮特的神經元理論。一個簡單的神經元模型就是一個計算的單元,它可以用命題邏輯來描述。接著,圖靈的工作導致了有限自動機和正則表達式的研究,這些研究都與語言的形式化描述有密切關係,把數學與語言緊密地聯繫起來。
  • 喬姆斯基:可選擇的道路並不多,我選擇「樂觀而不絕望」
    首先我想問您的是,您覺得您自己在過去50年的研究生涯中發展出的語言生物學方法至今是否還存在繼續探索的空間,如果存在的話,關於人類如何掌握語言這一研究領域,還有哪些問題尚未得到明確的答案?喬姆斯基作品《我們究竟是什麼樣的生物?》(What Kind of Creatures Are We?)書封。哥倫比亞大學出版社,2015年12月。
  • 免費中文深度學習全書:不僅有理論,還有配套代碼分析
    中文深度學習全書開源分享!涵蓋聽覺、視覺、語言和強化學習四大領域,深入淺出的理論分析和詳盡的代碼分析。市面上關於深度學習的書籍很多,本書最大的特點是理論結合實戰和內容的廣度。現在大家能夠看到的深度學習書籍大概可以分為兩類,一類只關注理論而另一類只關注應用。前者多為一些會議論文集,當然也包括 Ian Goodfellow 和 Yoshua Bengio 等人的 Deep Learning。