現代語言學之父喬姆斯基談深度學習的未來

2021-01-15 InfoQ技術實驗室

作者自述：過去幾周，我一直在和我最喜歡的無政府主義者諾姆·喬姆斯基進行電子郵件交流。我最初聯繫他是想問他，人工神經網絡（ANN）的最新發展是否會促使他重新考慮他著名的語言理論——普遍語法（Universal Grammar）。我們的談話內容涉及深度學習可能存在的局限性，以及神經網絡可以在多大程度上模擬生物大腦，還涉及到了更具哲學性的領域。在這篇文章中，我不會直接引用喬姆斯基教授的話，因為我們的討論是非正式的，但我將嘗試總結其中的要點。

本文最初發布於 Towards Data Science 博客，由 InfoQ 中文站翻譯並分享。

喬姆斯基是誰？

喬姆斯基首先是位語言學教授（被許多人稱為「現代語言學之父」），但在學術圈之外，他更為知名的身份可能是活動家、哲學家和歷史學家。他出版了 100 多本書，並在 2005 年《外交政策與展望》雜誌進行的民意調查中被評為世界頭號公共知識分子。

鄭重聲明，我是喬姆斯基作品的崇拜者，尤其是他對美帝國主義、新自由主義和媒體的批評。我們的觀點略有分歧的地方在於他對歐洲大陸哲學家（尤其是法國後結構主義者）的駁斥。或許，我在成年早期太過頻繁地從福柯、拉康和德希達那裡汲取靈感，因此受到了毒害，但我總是發現，喬姆斯基的哲學分析方法在道德上很有吸引力，但有點過於「乾淨」，對於我們的世界，無法給出令人滿意地解釋。雖然喬姆斯基對那些後結構主義傑出人物的蔑視顯而易見，但他的哲學觀點比他的批評者對他的讚揚更加微妙

普遍語法

我從一開始就聲明了，我不是語言學家，但在這一部分，我將試著大概介紹下普遍語法理論。在喬姆斯基之前，語言學中佔主導地位的假設是，人類的大腦天生是「白板」（就像一塊空白的石板），通過強化獲得語言。也就是說，孩子們聽到父母說話，他們會模仿他們聽到的聲音，當他們正確地使用一個單詞或構造一個句子時，他們會受到表揚。喬姆斯基的研究表明，強化作用只是其中的一個原因，人類大腦中肯定存在一種與生俱來的結構，這種結構是普遍存在的，能夠促進語言學習。他的主要論點是：

兒童獲得語言的速度太快，而且數據太少，無法用強化學習來解釋（也被稱為「刺激貧乏」）。即使在與人類相同的數據面前，動物也無法獲得語言。20 世紀 60 年代有一個著名的實驗，語言學家試圖教一隻黑猩猩（名為「尼姆喬姆斯基」）學習手語，但 10 年後，它仍然無法交流，只能完成一些基本的任務。所有人類語言之間都有共性。這表明，即使語言是獨立發展的，但在所有人類大腦的共同結構中，仍然存在著普遍性的特徵。孩子們並不是天生只能學習一種特定的語言。如果你把一個在肯亞出生的孩子帶到德國長大，他們學習德語就會和德國孩子一樣容易。這種關於基因硬編碼語言能力的理論在科學界被廣泛接受，但顯然，接下來人們會問，「這種普遍語法實際上是什麼樣子？」很快，勇敢的研究人員就開始著手探索所有人類語言的共同特性，但是，對於我們天生的語言能力是什麼形式，目前仍然沒有形成共識。可以肯定的是，普遍語法並不包含具體的句法規則，而更可能是一種基本的認知功能。

喬姆斯基假設，在人類歷史的某個階段，人類發展出了一種執行簡單遞歸過程的能力，他稱之為「合併（Merge）」，這就是我們在人類語言中看到的句法結構的屬性和約束。這有點抽象（太複雜了，一下也說不清楚），但本質上「合併」是將兩個對象合併成一個新對象的過程。雖然看似平淡無奇，但在腦海中組合概念並遞歸地完成這一操作的能力，卻強大得令人難以置信，使得我們能夠構建「無數種層級結構的表達式」。

這一微小但至關重要的基因飛躍不僅可以解釋我們的語言交流能力，還可以（至少是部分地）解釋我們的數學天賦和人類創造力。這種大約 10 萬年前發生在我們的其中一位祖先身上的「合併」突變，可能是區分人類和其他動物的關鍵因素之一。

人工神經網絡

我聯繫喬姆斯基教授的主要原因是，我想聽聽他對人工神經網絡（我對這個話題的了解比對語言學的了解多得多）的看法。人工神經網絡是機器學習模型的一個子集，它大致地模仿人類大腦，以類似的方式學習（通過大量樣本）。這些模型只需要很少的硬編碼，並且可以用相對簡單的架構執行相當廣泛的複雜任務（例如圖像標記、語音識別、文本生成）。由谷歌開發的 AlphaGo Zero 模型是這種方法的一個有指導意義的示例，它學會了下圍棋（一種複雜且具有挑戰性的棋類遊戲），最終成為人類世界冠軍不可戰勝的對手。

最令人印象深刻的是，經過訓練後，它能在沒有硬編碼或人工幹預（也就是「白板」）的情況下完成這一切。雖然人工神經網絡肯定不是人類大腦的完美類比，但我問喬姆斯基教授，這些模型是否表明，實際上我們不需要硬編碼的認知結構來從分散的數據中學習。

喬姆斯基實事求是地指出，ANN 適用於高度專門化的任務，但是這些任務必須受到嚴格的限制（儘管得益於現代計算機的內存和速度，其適用範圍可能會顯得很大）。他把人工神經網絡比作適用於高層建築的大型起重機；雖然這兩種工具都令人印象深刻，但它們都存在於具有固定邊界的系統中。

這一推理思路與我的觀察一致，即我所目睹的所有深度學習方面的突破都發生在非常特定的領域，我們似乎沒有接近任何類似通用人工智慧的東西（不管這意味著什麼）。

喬姆斯基還指出，越來越多的證據表明，人工神經網絡並不能準確地模擬人類認知，人類認知更豐富，其涉及到的計算系統甚至可以擴展到細胞水平。

如果喬姆斯基是對的（我認為他是正確的），那麼深度學習研究可能的發展結果是什麼？歸根結底，人類的大腦並沒有什麼神奇之處。它只是一個由原子組成的物理結構，因此，我們完全有理由相信，在未來的某個時候，我們可能能夠創造出具有普遍智能的人工版本。也就是說，目前的人工神經網絡只是提供了這種認知的一個模擬，根據喬姆斯基的邏輯，如果我們不首先提高自己對有機神經網絡運行機制的理解，就不可能到達下一個前沿。

道德相對主義

現代數據科學家擔憂的一個突出問題是，如何以合乎道德的方式使用人工智慧，但有時，在其他具體的領域中，其邊界會比較模糊和主觀。喬姆斯基的工作為深度學習的未來提供了獨特的技術視角，普遍語法也具有深刻的道德含義，因為語言是我們探討和解釋世界的方式。例如，喬姆斯基的觀點是，上述固有的神經結構排除了道德相對主義，而且必須存在普遍的道德約束。

道德相對主義有許多不同的形式，但其核心原則是，道德認定沒有客觀依據。道德相對主義者稱，儘管我們可能深信諸如「奴隸制不道德」這樣的說法，但我們沒有實用的方法來向持不同意見的人證明這一點，因為任何證據都必然依賴於價值判斷，而我們的價值觀歸根結底是外生的，由文化和經驗決定。

喬姆斯基認為，道德根植在大腦中，因此，從定義上講，道德是一種生物系統。所有的生物系統都會變異（自然地，或是因為不同的刺激），但它們也有局限性。以人類的視覺系統為例：實驗表明，視覺系統具有一定的可塑性，並受到經驗的影響（尤其是在幼兒時期）。通過改變提供給人類視覺系統的數據，就可以真正地改變感受器的分布，從而改變個體感知水平線和垂直線的方式。

然而，你無法把人類的眼睛變成昆蟲的眼睛，或者賦予某人看到 X 射線的能力。喬姆斯基認為，生物系統（包括道德）可以大幅變化，但不是無限的。他接著說，即使你相信我們的道德完全源自文化，你仍然需要以同樣的方式獲得文化，就像你獲得任何體系一樣（這歸因於與生俱來的普遍存在的認知結構）。

對於這種解讀，我最初持保留意見，如果我們假設道德只是「合併」（或同樣原始的東西）的結果，那麼這可能會帶來理論上的局限，而我的直覺是，我們的道德可以變化如此之大，以至於實際上不可能做出普適性的陳述。過去，喬姆斯基討論過道德進步似乎會遵循某些趨勢（例如接受差異、拒絕壓迫等等），但我看不出來，這些廣泛的趨勢在從如此簡單的原子認知結構中出現時如何保持一致。

當我向喬姆斯基教授提出這一觀點時，他認為這是種錯覺，當我們不理解事物時，它們看起來比實際情況更加多樣化和複雜。他舉了寒武紀大爆發以來動物身體結構變化的例子。僅僅在 60 年前，生物學的主流觀點還是，生物體的差異如此巨大，對於其中的每一種，都必須以個體為基礎進行研究，但現在我們知道，這是完全錯誤的，物種之間的遺傳變異相當小。在複雜的後天系統中，變異必定很小，否則我們無法獲得。

英文原文：

https://towardsdatascience.com/noam-chomsky-on-the-future-of-deep-learning-2beb37815a3e

相關焦點

【NLP反思扛鼎之作】深度學習是經驗主義新高峰,不是理性主義終結

深度學習是經驗主義的一個新高峰，但它不會是理性主義的終結者。因為這是科學哲學高度的兩個基本的方法論，是貫穿人工智慧全部歷史的。 Kenneth Church 談人工智慧和自然語言的歷史、發展與未來選自中國計算機學會通訊譯者按：肯尼斯·丘吉(Kenneth Church) 是自然語言領域的泰鬥，語料庫語言學和機器學習的開拓者之一。
索緒爾的語言觀對中國當代的語言學研究的影響

摘要：作為現代語言學之父，索緒爾的語言觀對中國當代的語言學研究有著深遠影響。可以說，現代語言學理論的方方面面都滲透著索緒爾的思想，國內學者對索緒爾理論本身的研究也有很多。本文使者通過對前人研究的歸納與總結，來討論當今國內的一些語言學研究對於索緒爾理論的闡述。
神經語言學:語言學研究走進科學實驗室

傳統語言學研究多以理論思辨方式進行　　現代意義上的語言學肇始於19世紀末20世紀初，瑞士語言學家索緒爾創立了結構主義語言學，從此人們開始將探究語言本體作為語言研究的目的，語言學由此進入現代階段。20世紀50年代，美國語言學家喬姆斯基的著作《句法結構》問世，轉換生成語言學由此形成並經歷了四個發展階段。　　無論是索緒爾還是喬姆斯基，其工作都將語言學研究引向了科學道路。然而要研究語言能力，這種純理論思辨式的研究方法效果難以盡如人意。楊亦鳴表示：「以轉換生成語法為例，能不能真正發現人腦中的普遍語法即人類的普遍語言能力，令人擔憂。」
3.2.3喬姆斯基的語言觀

如現代漢語、越南語，特點：沒有形態的變化，語法意義表達主要藉助於詞序與虛詞，虛詞如漢語裡的「著」、「了」、「過」、「的」、「地」、「得」。2. 黏著語。如現代日語、朝鮮語、土耳其語，特點：應用多種詞綴，詞綴與語法意義基本是一一對應，表達時需要多種語法意義時就附上多種詞綴，詞根與詞綴，詞綴與詞綴之間是在表達中動態結合的，通常詞綴是後附加方式。3.
王寅:體認語言學發凡

就其本義來說，與「心智運作」有關的都可稱之為「認知」，「認知語言學（CL）」在理論上可涵蓋各路哲學，喬姆斯基、軟體設計專家和運用計算機進行實驗的學者都自稱為認知語言學家。他（2014）在「後現代哲學視野下的體認語言學」一文中，將源自國外的CL本土化為「體認語言學（ECL）」，在學科名稱中用上「體」，以能突出語言理論研究中的「唯物觀」，可明確區分於索緒爾（語言先驗論）和喬姆斯基（語言天賦論）二位語言學之父基於唯心主義哲學所建立的語言理論。 ECL得到很多學者的響應。
喬姆斯基:作為公共知識分子,他是「美國永遠的反對派」

撰文 | 羅東李永博徐偉張進何安安主打《樂觀而不絕望：資本主義、帝國和社會變革》（美）諾姆·喬姆斯基、C.J.波利赫羅紐著，顧潔、王茁譯，上海譯文出版社，2020年6月貼在喬姆斯基（Noam Chomsky）身上的標籤從來不少。作為學者，他是「美國現代語言學之父」。作為公共知識分子，他是「美國永遠的反對派」。
喬姆斯基:可選擇的道路並不多,我選擇「樂觀而不絕望」

作品包括《現代希伯萊語語素音位學》《句法結構》《支配和約束論集》等。貼在諾姆·喬姆斯基（Noam Chomsky）身上的標籤從來不少。作為學者，他是「美國現代語言學之父」。作為公共知識分子，他是「美國永遠的反對派」。他的學術專長只是語言學，不過他的思考野心使他所涉領域已經涵蓋當今大部分人文學科、社會科學。
他被稱為「中國語言學之父」,人生仿佛開過掛一樣,你知道他嗎?

趙元任趙元任（1892年11月3日－1982年2月25日），字宜仲，江蘇省常州府陽湖縣（今屬武進縣）人，是中國著名的語言學家、哲學家、作曲家，亦是中國語言科學的創始人，被稱為漢語言學之父，中國科學社創始人之一。
從語言學到深度學習NLP,一文概述自然語言處理

第二部分描述的是基於深度學習的 NLP，該論文首先描述了深度學習中的詞表徵，即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等，我們首先需要數字表徵詞彙才能進一步做自然語言處理。該論文回顧了 NLP 之中的深度學習重要模型與方法，比如卷積神經網絡、循環神經網絡、遞歸神經網絡；同時還討論了記憶增強策略、注意力機制以及無監督模型、強化學習模型、深度生成模型在語言相關任務上的應用；最後還討論了深度學習的各種框架，以期從深度學習的角度全面概述 NLP 發展近況。如今，深度學習架構、算法在計算機視覺、模式識別領域已經取得驚人的進展。
語言學的問題意識、話語轉向及學科問題

而推廣普通話運動帶來了對於普通話語音、詞彙、語法的全方位研究,方言學家也對全國方言進行了較為全面的調查,編寫出很多方言區學習普通話的讀本。此後的《中國語言地圖集》(李榮、熊正輝、張振興主編)、《普通話基礎方言基本詞彙集》(陳章太、李行健主編)、《現代漢語方言音庫》(侯精一主編)等鴻篇巨製,都得益於早年的方言調查工作。
喬姆斯基:西方的鴕鳥心態對付不了IS

【原編者按】最新一期的美國左派思想雜誌《雅各賓》網絡版在11月23日發表了對美國左派知識分子、MIT語言學教授喬姆斯基的專訪，涉及的話題非常廣泛，從巴黎恐怖襲擊、IS到希臘債務危機，從巴爾幹問題到社會主義理念。澎湃新聞編譯了此次專訪中部分內容。
獲得語言學學位,你以後可以做什麼?

為什麼學語言學？這篇關於語言學課程的基本指南，幫你了解在語言學專業裡需要學習哪些課程？在你獲得語言學學位課程後，可以從事哪些工作？什麼是語言學？語言學是一門對語言進行科學研究的學科。語言學還研究聲音與意義之間的相互作用，以及語言在人與情境之間的差異。由於強調批判性思維，分析和溝通技巧，語言學學位可以為許多職業打開大門。你在語言學學位中，你可以學到什麼？語言學學位涵蓋了許多與語言分析和結構方式有關的主題。他們還可以涵蓋語言隨時間而變化的方式，不同人群和情況之間的差異以及人們如何學習或習得語言。
現代密碼之父預言:更遠的未來就不需要加密了!現代密碼之父是誰?

被稱為現代密碼之父的惠特菲爾德·迪菲，日前在2019重慶全球科學家高峰會的主題論壇上語驚四座：「更遠的未來，不需要加密了。」惠特菲爾德·迪菲稱，密碼學將有三大機會。迪菲的觀點是建立在「人類自主性不斷下降」的基礎上的，如果人類自主性沒有下降反而加強，那未來對密碼的需求更大。所以未來社會是否需要加密是一件有待研究的事情。人物檔案：惠特菲爾德·迪菲，2015年圖靈獎獲得者，現任美國國家工程院院士、英國皇家學會外籍院士。
計算語言學前景廣闊

計算語言學是用計算機研究和處理自然語言的一門新興交叉學科。在近年推進新文科建設的背景下，計算語言學及其相關應用日益引起關注。計算語言學領域相關學者在接受本報記者採訪時表示，計算語言學方興未艾，應用廣泛，前景廣闊。
語言學的幾個分支,了解一下吧

節選自：THU語協《所以，語言學是什麼》語言學的確概念比較多，不過也就只是概念多而已，實際上理解起來倒是不難。這或許是多數大學語言學專業最先接觸、也最熟悉的一個分支了。元音、輔音、前鼻音、後鼻音、捲舌音、小舌音、大舌音……這些概念統統屬於語音學。多數語言都有自己的拼寫方案，用字母等記音符號來記錄真實的發音。
NLPCC 傑出貢獻獎得主馮志偉先生: NLP 研究 60 載漫漫長徵,未來仍...

他既懂得理科中的數學、物理、化學和計算機科學，又懂得語言學中的古代漢語、現代漢語、文字學、音韻學和普通語言學，深研過漢、英、法、德、俄、日等語言的語音、詞彙和語法的自動處理，並把各方面的知識緊密地結合起來綜合應用，在計算機上加以實現，完成各種研究任務。他在不同學科、不同語言研究中都取得重要的成就，分別成為這些學科的學術帶頭人。
全國2020年8月自考語言學概論00541真題

全國2020年8月自考語言學概論00541真題課程代碼:00541注意事項:1.答題前，考生務必將自己的考試課程名稱姓名、準考證號用黑色字跡的籤字筆或鋼筆填寫在答題紙規定的位置上。1.提出大腦中存在語言遺傳機制的是A.索緒爾B.葆樸C.喬姆斯基D.雅各布遜2.下面各項中屬於擦音的是A. [p]B. [x]C. [y]D.
2019考研專業:語言學及應用語言學

本文為大家介紹語言學及應用語言學專業。　　一、學科概況　　語言學及應用語言學是一個相對新興的專業。除了語言學本體理論研究之外，更關注語言的應用研究。研究的範圍非常廣泛，主要研究語言在各個領域中實際應用的語言學分支。它著重解決現實當中的實際問題，一般不接觸語言的歷史狀態，也不大介入一般理論上的爭辯。可以說，它是鑑定各種理論的實驗場。
現代火箭技術之父

是美國最早的火箭發動機發明家，被公認為現代火箭技術之父。 1926年3月16日，在麻薩諸塞州的奧本，冰雪覆蓋的草原上，戈達德發射了人類歷史上第一枚液體火箭。火箭長約3.4米，發射時重量為4.6公斤，空重為2.6公斤。飛行延續了約2.5秒，最大高度為12.5米，飛行距離為56米。這是一次了不起的成功，宣告了現代火箭技術的誕生。

現代語言學之父喬姆斯基談深度學習的未來

相關焦點

【NLP反思扛鼎之作】深度學習是經驗主義新高峰,不是理性主義終結

索緒爾的語言觀對中國當代的語言學研究的影響

神經語言學:語言學研究走進科學實驗室

3.2.3喬姆斯基的語言觀

王寅:體認語言學發凡

喬姆斯基:作為公共知識分子,他是「美國永遠的反對派」

喬姆斯基:可選擇的道路並不多,我選擇「樂觀而不絕望」

他被稱為「中國語言學之父」,人生仿佛開過掛一樣,你知道他嗎?

從語言學到深度學習NLP,一文概述自然語言處理

語言學的問題意識、話語轉向及學科問題

喬姆斯基:西方的鴕鳥心態對付不了IS

獲得語言學學位,你以後可以做什麼?

現代密碼之父預言:更遠的未來就不需要加密了!現代密碼之父是誰?

計算語言學前景廣闊

語言學的幾個分支,了解一下吧

NLPCC 傑出貢獻獎得主馮志偉先生: NLP 研究 60 載漫漫長徵,未來仍...

全國2020年8月自考語言學概論00541真題

2019考研專業:語言學及應用語言學

現代火箭技術之父