深度| 顛覆喬姆斯基的語言學習理論?沒那麼容易

2020-12-13 機器之心Pro

選自Scientific American作者：Jeffrey Lidz機器之心編譯

9 月初，Yann LeCun 轉發了一條推特，推薦 Scientific American 上的一篇顛覆喬姆斯基語言學理論的文章，並認為此文在喬姆斯基的普遍語法理論的棺木上又多釘了幾枚釘子。然而，Scientific American 近日又發了一篇文章推翻了之前的那篇文章，認為其對喬姆斯基的理論存在根本性誤解。看來圍繞喬姆斯基的爭論遠未止息......

沒讀過 Ibbotson 和 Tomasello（以下 I&T）最近在科學美國人（Scientific American）上發表的文章「Evidence Rebuts Chomosky's Theory of Language Learning」的朋友，或許會對文章的標題不明所以。同時你也可能在猜測，這篇文章中或許會列舉很多具體的實證來駁斥諾姆喬姆斯基的語言學習理論。但是，文章中並沒有這樣的實證論述。回顧喬姆斯基的語言學思想，這位語言學生成學派泰鬥並沒提出任何關於語言習得的具體理論。他的思想是通過對人類可能的語言空間的初始條件定義來論述語言習得在理論上的可能。這也是 I&T 無法在其文中列舉具體實證來反駁喬姆斯基的原因之一。另外，I&T 也幾乎沒有找到任何與生成學派的語言習得理論完全相左的強有力證據。I&T 對喬姆斯基語言學思想的根本性誤解是其文章中沒有相關論述的原因所在。

諾姆喬姆斯基（Noam Chomsky），麻省理工學院榮譽退休教授，有史以來論文被引用數量第 8 的學者。

20 世紀 50 年代到 60 年代，喬姆斯基提出了一個研究人類語言機能的範式。這個範式包含三部分：（1）語言學知識的正式明確性模型的構建，（2）普遍語法規則的檢索對可能語法空間的精準勾勒，（3）語法知識和語法使用可以被視為不同的方法性假說。這項研究曾經宣稱其最終的理論是為了解釋普遍語法規則的運用是語言習得理論的一個重要組成部分。語法規則將和語言學習者的經驗及其他能力共同推進語言學習者語法知識的增長。在喬姆斯基的研究中，對語言學習者的語言習得作用因素進行了明確的區分，這種區分與生物體的生長是由其基因結構、外部環境以及其他內部因素三部分互相作用的區分類似。就如沒有生物學家會認可基因結構理論和生物進化理論等價一樣，任何語言學家（當然喬姆斯基本人除外）都不會認可語法結構和語言習得理論是等價的。

人類可能習得的語言理論能夠為語言習得提供理論支撐的論斷部分來源於刺激貧乏論，刺激貧乏論認為相比於普通孩子所在的語句環境，我們在以後的成長過程中可以逐漸學到更加複雜的語言知識。這個學說的論證可以遵從以下例子的步驟進行：

基本語料：

（1）a.Val is a good volleyball player and Al is too

b.Val is a better volleyball player than Al is

在這兩句話中，第二個從句中有一個未明確指出的謂語，這個謂語來源於第一個從句（即：a good volleyball player）。為了簡化，我們把（1a）稱為並列省略（coordinate ellipsis），（1b）稱為比較省略（comparative ellipsis）。我們還進行進一步區分，在省略謂語的句子裡，中括號中的補充文字即為所省略的謂語內容。

(2) a. Val is a good volleyball player and Al is [a good volleyball player] too

b. Val is a better volleyball player than Al is [a good volleyball player]

這些省略的結構對孩子們的口語來說是很普遍的。我們同樣能觀察到這些未說出口的謂語動詞和他前期能理解多從句（multi-clause）之間的關係，即使是在孩子們沒有聽到許多這種多從句（multi-clause）類型的句子時候。

(3) a. Val is a good volleyball player and I think that Al is [a good volleyball player] too

b. Val is a better volleyball player than I think that Al is [a good volleyball player]

c. Val is a good volleyball player and I heard you say that Al is [a good volleyball player] too

d. Val is a better volleyball player than I heard you say that Al is [a good volleyball player]

然而，當嵌入從句是關係從句的時候，這兩種省略句將會區分開來。並列省略（coordinate ellipsis）仍然能組成一些英語的句子，但是比較省略（comparative ellipsis）就不能這樣（意味著不能組成英語句子）。

(4) a. Valentine is a good value-ball player and I heard a rumor that Alexander is [a good volleyball player] too

b. * Valentine is a better value-ball player than I heard a rumor that Alexander is [a good volleyball player]

這裡要解釋的是，為什麼這個兒童學習者在為並列和比較省略組織表達時，不會將沉默的謂詞以同樣的方式用在兩個例子中。這個兩個例子都可以被解釋為等同於在（1）和（3）的所有句子中的主句謂語。然而，如果省略的謂詞是在一個關係從句裡面，它就可以被解釋為等同於並列省略而不是比較省略中的主句謂語。這可能會得出一個類比，但是事實上不可以。英語學習者不會遇上像（4a）或（4b）那樣的句子，但是有時我們都會意識到英語中可能會有像（4a）那樣的句子嗎，它會是什麼樣子的？

這種喬姆斯基式的答案只能提供部分解答。它表示像 (1b) 中那樣的比較結構（comparative constructions）有一個與問題共同的結構特徵。要了解這能夠使 (4b) 不可能的原因，讓我們先考慮一下被構建出來的問題。類似 (5) 這樣的成分問題（constituent questions）可以將句子起始處的一個短語和該句子中後面的一個動詞聯繫起來：

(5) What did Ellen take?

這裡的動詞 take 是及物動詞，它需要一個直接賓語，這使得 (6a) 是一個可能的句子而 (6b) 並不是：

(6) a. Ellen took a picture

b. * Ellen took

在 (5) 中，直接賓語是 what，其出現在句子開頭，但其作用和 (6a) 中的 a picture 這個短語是一樣的。

這種依賴（dependency）也可以跨多個從句進行延伸：

(7) a. What do you think that Ellen took?

b. What did you hear Tonia say that Ellen took?

但如果這個動詞本身就在一個關係從句（relative clause）中，那麼這種依賴就不能形成：

(8) * What did you hear a rumor that Ellen took?

像 (7b) 和 (8) 這樣的句子都不在典型的兒童語言學習者的經驗範圍內，但我們都能認識到 (7 a/b) 是可能的句子而 (8) 並不是。

如果我們通過檢查許多依賴和許多語言來在英語中的這些觀察上進行構建，那麼我們會發現人類語言中（至少）存在兩種依賴（dependency）。一類可被構建成關係從句，另一類則不能。給定這兩種分類，我們可能會提出這些依賴的類別內建於學習者的語言機能中。這個觀點會改變語言學習問題的本質。學習者的工作並不是去發現被學習的語言的每一種屬性，而是（在這個領域內）去發現該語言中的依賴是屬於哪種類別。對其中依賴進行了分類之後，學習者就會知道它們之中哪些特定的元素可以被用在關係從句中（如：並列省略（coordinate ellipsis）），或不能這麼用（如：比較省略（comparative ellipsis）和成分問題）。該學習者並不需要搞清楚每一種依賴能否出現在關係從句中，他只需要明白一種依賴屬於哪一類。根據這個類別，與相關性（relativization）的交互作用便遵循一開始定義這些類別的普遍語法（Universal Grammar）原則。

I&T 宣稱：這都是錯的，而且事實已經證明了這一點。但他們給出的證據只牽扯到語言特徵中最簡單最容易觀察的部分，比如一個動詞是否需要一個直接賓語，這些對於構建一種學習理論來說太過簡單了，因為它們在學習者的經驗中是非常豐富的。喬姆斯基的觀點允許觀察（observation）、進行類比（analogy making）和分布式分析（distributional analysis）的概念，以解釋它們被學習到的方式，就像 I&T 所支持的基於使用的理論（usage-based theory）一樣。

但當其涉及到高度抽象的和跨語言穩定的性質（如：依賴的分類）時，基於使用的理論就沉默得可疑。這種沉默是可以從這種理論的形狀（shape of the theory）上預見到的。任何曾經精確和正式地學習過學習和歸納（learning and generalization）的人都知道，分布式分析、類比進行和歸納的理論開始於可觀察特徵的類別的陳述（statement）和可投射謂詞（projectible predicates）的類別的陳述——這些謂詞定義了歸納時所遵循的維度（dimensions）。因為基於使用的理論沒有提供歸納的可能維度的規範，那麼它就在設計上沒有給學習者歸納的方式提供解釋；而更重要的是，除了學習者無法使用的數據，其也沒有給與數據一致的歸納提供解釋。

最後，基於使用的理論學家告訴我們：語言知識和語言使用部分獨立的方法原理是一個不連貫的（incoherent）思想，幾乎不能解釋語言的習得。因此，他們認為這種方法原理應當被拒絕。但是，他們既沒有解釋這種不連貫是如何產生的，也沒有解釋語言行為（linguistic behavior）是如何在沒有這種區分的情況下取得成功的。舉一個簡單的例子，我知道如何拼寫 language，但是有時候我打字太快時我會把它寫成 langauge——其中 a 和 u 的位置被寫反了。關於我打字這種情況可以通過兩個因素進行解釋：（1）我對於這個詞的拼寫的正確表示、（2）我的運動規劃和行動系統導致了這一情況，使得序列 g-u-a 的輸入需要交替使用我的左右手，而儘可能快速打字的壓力使得正確交替的模式變得更加困難，從而導致有時候我用左手打出 g-a 序列時，我的右手還沒有來得及按下 u。這是否意味著我並不知道正確的拼寫，還是說我在表示這個語言的拼寫時，80% 是這個方式，20% 是另一種方式？甚至 I&T 也不會這麼想。那麼為什麼我的語言能力會有所不同呢？

為什麼我們說話的過程不能通過類似的方式進行解釋呢？這個過程涉及到我們對知識的整合，其中包括：句子的構建方式、詞的發音方式、概念上的知識、記憶系統、預測過程等等。實際上，識別這種區別能讓我們可以將特定的事實歸屬於我的語法知識或使用這些知識的處理系統。

稍微舉個例子說明一下，考慮一下一致性吸引現象（phenomenon of agreement attraction）：

(9) The key to the cabinets is/#are on the table

這個現象是指人們偶爾會在上面這樣的句子中使用 are 而非 is（據 Kay Bock 的研究，在實驗生產的任務中有大約 8% 的可能性），而且在加速的可接受性判斷任務（speeded acceptability judgment task）中，他們甚至無法注意到 are 的怪異。為什麼會發生這種事？一些心理學家認為這和在句子理解的過程中句子的部件在工作記憶（working memory）中的存儲和重新獲取有關。也就是說，使用獨立理解的工作記憶模型並將其應用到句子理解上，這些作者解釋了英語說話者注意或沒有注意到的這種類型的一致性錯誤（agreement errors）。所以，在一些情況中，表現（performance）掩蔽了能力（competence）。這種情況允許我們將解釋分配到語法理論和處理理論上，這使得我們不需要去複雜化我們的主語-動詞一致性的語法理論。這樣的解釋難道沒有那些不能將解釋跨領域分配的解釋科學嗎？明顯不是。

I&T 還宣稱這種知識和使用（用喬姆斯基的術語來說是能力（competence）和表現（performance））之間的區別是有害的，並且削弱了關於語言習得的觀點的可證偽性。但是原因為何？考慮以下情況。所有的語言使用者都是逐漸理解句子的——他們一邊聽句子一邊構建自己的理解，而不是等待句子結束才開始理解。這有時候會帶來問題。比如這個例子：

（10）Put the frog on the napkin in the box.

當聽到這種語句時，我們最初的理解是詞組「on the napkin」是說話者希望把青蛙擺放的位置。隨著對話繼續，我們修改了之前的理解，「on the napkin」是對於「the frog」目前狀態的解釋，相當於「the frog that is on the napkin.」這一修正過程可在被實驗者的視覺軌跡中觀察到。孩子們會難以理解這句話，這從他們的視覺軌跡和行動中都可以看出來，有時他們會把青蛙放在餐巾上。有可能這表示人類在年幼時期這些機制仍未發展完全，這些機制抑制快速理解或反應。實際上，大腦受損的患者和做出錯誤反應的人顯示出了類似的行為。

這種理解困難可以解釋為什麼兒童有時在學習語言上遇到了障礙。例如，Akira Omaki 測試了英語和日語母語的 4 歲兒童對下面一句話的解釋：

Where did Lizzie tell someone that she was going to catch butterflies？

這句話難以理解之處在於「where」和主動詞到底是「tell」還是「catch」。現在，如果把孩子比作增量分析程序，他們可能會難以修改第一印象形成的判斷，我們假定英語兒童會難以分析動詞，他們強烈地傾向於第一個動詞為主動詞。而日語兒童卻存在相反的強烈偏見，因為在日語中這句話的語序會出現顛倒。事實上，這正是 Omaki 的發現，分析系統的性能和可以獨立理解的短語可以解釋孩子的行為。因此，理解系統的機制可以讓我們解釋為什麼同樣的意思不同語言裡會出現不同的表達。

綜上所述，Paul Ibbotson 和 Michael Tomasello 宣稱喬姆斯基語言學已經滅亡，但它仍未引起這一領域的注意。I&T 和它引用的研究一起，沒有證明任何喬姆斯基語言學的核心觀點。它們沒有驗證喬姆斯基在 20 世紀 60 年代理論框架中的邏輯；也沒有驗證這一框架存在的基礎。

深度| 顛覆喬姆斯基的語言學習理論?沒那麼容易

相關焦點

現代語言學之父喬姆斯基談深度學習的未來

喬姆斯基專訪:深度學習並沒有探尋世界本質

喬姆斯基與中國外語教學—有感著名語言學家喬姆斯基首次中國之旅

喬姆斯基與中國外語教學

幼兒語言學習的特點及基本理論

人類的語言是如何誕生的?喬姆斯基之外的一種觀點 by Daniel L. Everett

大師喬姆斯基首度訪華語言學演講像生物課(圖)

3.2.3喬姆斯基的語言觀

喬姆斯基在線訪談

憤怒的語言

幼兒語言學習天賦和黃金期,它真的存在嗎?

R語言做深度學習

喬姆斯基:語言學的「當時」和「現在」

喬姆斯基:教育市場化的危害

深度學習的理論來源|一個鍊金術師的自述(2)

陶大程院士:深度學習「泛化」理論的回顧與前沿

計算語言學與深度學習

用數學邏輯之美揭示語言結構之妙

喬姆斯基:可選擇的道路並不多,我選擇「樂觀而不絕望」

免費中文深度學習全書:不僅有理論,還有配套代碼分析

深度| 顛覆喬姆斯基的語言學習理論?沒那麼容易

相關焦點

現代語言學之父喬姆斯基談深度學習的未來

喬姆斯基專訪:深度學習並沒有探尋世界本質

喬姆斯基與中國外語教學—有感著名語言學家喬姆斯基首次中國之旅

喬姆斯基與中國外語教學

幼兒語言學習的特點及基本理論

人類的語言是如何誕生的?喬姆斯基之外的一種觀點 by Daniel L. Everett

大師喬姆斯基首度訪華 語言學演講像生物課(圖)

3.2.3喬姆斯基的語言觀

喬姆斯基在線訪談

憤怒的語言

幼兒語言學習天賦和黃金期,它真的存在嗎?

R語言做深度學習

喬姆斯基:語言學的「當時」和「現在」

喬姆斯基:教育市場化的危害

深度學習的理論來源|一個鍊金術師的自述(2)

陶大程院士:深度學習「泛化」理論的回顧與前沿

計算語言學與深度學習

用數學邏輯之美揭示語言結構之妙

喬姆斯基:可選擇的道路並不多,我選擇「樂觀而不絕望」

免費中文深度學習全書:不僅有理論,還有配套代碼分析

大師喬姆斯基首度訪華語言學演講像生物課(圖)