計算語言學與深度學習

2021-02-19 哈工大SCIR

來源：《中國計算機學會通訊》2016年第3期《譯文》
作者：克里斯多福·D.·曼寧(Christopher D. Manning)
譯者：劉知遠　李若愚

深度學習的海嘯

近年來，深度學習的浪潮一直拍打著計算語言學的海岸，而2015年似乎是深度學習「海嘯」全力衝擊自然語言處理領域主流會議的一年。然而，有些學者預測，海嘯最終的破壞力還會更加劇烈。與在法國裡爾舉行的2015國際機器學習大會(International Conference on Machine Learning, ICML)同時，舉行了差不多同樣規模的2015深度學習研討會。在研討會結束時舉行了一場專題討論，在討論中尼爾·勞倫斯(Neil Lawrence)說：「自然語言處理的處境現在有點像只夜間公路上的兔子，被『深度學習』這部高速行駛『汽車』的『前大燈』晃瞎了眼睛，只能束手待斃。」計算語言學者們應當認真對待這個論斷。對我們而言，深度學習就是我們研究的終點了嗎？這些關於深度學習威力的預測從何而來呢？

2015年6月，在臉譜(Facebook)巴黎人工智慧實驗室的成立大會上，實驗室主任雅恩·樂昆(Yann LeCun)說：「深度學習的下一個重要目標是自然語言的理解，這將讓機器不只是具有理解單個字詞的能力，還將具備理解句子和段落的能力。」2014年11月，在一場紅迪網(Reddit)在線提問(Ask Me Anything，AMA)活動中，欣頓(Geoffrey Hinton)說：「我認為接下來的五年裡最激動人心的領域將是真正理解文本和視頻。如果這五年裡我們無法讓機器自動瀏覽YouTube視頻並能夠講述視頻中發生的事情，那麼我會非常失望。在這幾年時間內，我們要把深度學習功能嵌入晶片中，這樣就可以把能夠自動翻譯英語的晶片植入人耳，就像『巴比倫魚（Babel Fish，《銀河系漫遊指南》中的虛擬外形魚，只要放在耳朵裡就可以翻譯任何語言）』那樣實現即時翻譯。」而深度學習的第三位重要學者尤舒·本希奧(Yoshua Bengio)，也逐漸將他課題組的研究轉向自然語言，最近在神經機器翻譯(neural machine translation)系統方面取得激動人心的成果。不是只有深度學習專家才有這樣的看法。在2014年9月的一場在線提問活動中，機器學習的學術帶頭人麥可·喬丹(Michael Jordan)被問到，「如果你獲得10億美元經費，資助你領導一項大型研究項目，你想要做什麼？」他的回答是：「我將使用這10億美元來建立一個美國航空航天局規模的項目，專注於自然語言處理，包括所有重要的問題（語義分析、語用學等）。」他還表示：「理智地看，我認為自然語言處理非常迷人，讓我們得以集中研究高度結構化的推理問題，研究那些通向『什麼是思想』的核心又還具有重要實際意義的課題，以及研究無疑會讓世界變成更美好地方的技術。」這應當是不錯的前景。那麼計算語言學者們還要害怕深度學習麼？我認為並不需要。回到欣頓提及的《銀河系漫遊指南》(Hitchhiker’s Guide to the Galaxy)，我們把書翻過來看看它的封底，那裡有醒目的友情提示：「別慌。」

深度學習的成就

毫無疑問，近年來深度學習取得了驚人的進展，我不想窮舉所有的成功案例，在這裡我只舉一個例子。最近有篇谷歌博客文章介紹了谷歌語音(Google Voice)新推出的語音轉寫系統Neon。在承認谷歌語音過去的語音郵件轉寫功能不夠智能的問題後，博客開始介紹Neon是新開發出來的、更準確的轉寫系統。博客是這麼說的：「通過採用一個（深呼吸！）長短時記憶深度遞歸神經網絡(long short-term memory deep recurrent neural network)（哇！），我們將轉錄錯誤率降低了49%。」研製一種新的解決方案，將過去最好的系統的錯誤率減半，這不正是我們每個人的夢想麼？

為什麼計算語言學家不需要擔心

麥可·喬丹在在線提問活動中表示他不相信深度學習能夠解決自然語言處理問題，他指出：「雖然現在很多深度學習研究聲稱能夠搞定自然語言處理，但我認為：

」喬丹提到的第一個理由無疑是對的：到目前為止，在更高級的自然語言處理任務中，深度學習並未像在語音識別、物體識別等任務上做到的那樣，顯著降低錯誤率。儘管在這些任務上採用深度學習技術能夠有些成效，但與在其他方面所得到的動輒25%或50%的錯誤率降低相比，不免相形見絀。因此，我們容易想到這種狀態也許會一直持續，深度學習只有在視聽等信號處理任務上才有可能創造奇蹟。另一方面，我對喬丹的第二個理由並不以為然。但是，對於為什麼自然語言處理無須擔心深度學習，我的確有自己的兩個理由：

而這些領域問題並未消失。約瑟夫·雷辛格(Joseph Reisinger)在他的博客中寫道：「我經常會遇到那些推銷『通用機器學習』的創業公司，老實講這個創意很荒唐。機器學習不是無差別舉重項目，也不能像亞馬遜彈性計算雲EC2(Elastic Compute Cloud)那樣商品化(commoditizable)，機器學習與其說是編程，不如說更像設計。」而從事語言學和自然語言處理的人正是設計師。近幾年的國際計算語言學會議(the Association for Computational Linguistics, ACL)把注意力過分集中於數字和擊敗最好的方法上，那還不如改名叫「Kaggle大賽」好了。我們的領域應當更關注問題、方法和架構本身。最近，我和很多合作者一起在Universal Dependencies（通用依賴關係）的發展上投入大量精力，旨在研製一個能夠用於所有人類語言的通用的依存句法表示、詞性標註(Part of Speech tagging, POS)和特徵標籤集合，並希望其具有可接受的正確率和易用性。這只是一個例子，在我們領域還有很多其他正在進行的設計工作，例如抽象語義表示(abstract meaning representation)。

語言的深度學習

深度學習可以在自然語言處理的哪些方面發揮作用呢？到目前為止，自然語言處理取得的主要提升並非來自真正的深度學習（即採用層次結構的抽象表示來提高泛化能力），而是更多地來自分布式的詞表示，即對詞語和概念採用實數向量表示。採用稠密、多維向量表示方法來計算詞語相似度，對自然語言處理和相關領域都非常有用。實際上，分布式表示的重要性可以追溯到神經網絡早期提出的「並行分布式處理」的思想，在當時這更多地還是從認知科學角度受到關注。分布式表示可以更好地解釋類似人類的泛化能力，同時從工程角度來看，通過使用低維、稠密向量進行詞表示，能夠讓我們更好地對大規模上下文語境(large contexts)建模，從而極大地改善語言模型。從這個全新的角度來看，傳統基於N-Gram的語言模型由於階數增加會帶來指數級的稀疏性，似乎不再實用。

我堅信深度模型終將發揮作用。從理論上講，深度表示內部的共享機制會帶來指數級的表徵優勢，也將在實際應用中改善學習系統的性能。深度學習系統的構建方法很有吸引力且威力強大：研究者只需要定義模型架構和頂層損失函數，就能通過一個端到端的學習框架，自動調整模型參數和表示，從而將這個損失函數最小化。在最近的神經機器翻譯中，我們已經見識到這種深度學習系統的威力。

最後，我一直倡導更多地關注模型的語義組合能力，特別是語言，還有通用人工智慧。智能需要具備以小見大的能力，能夠從較小的部分理解更大的整體。特別是在語言方面，對新穎複雜句子的理解很大程度上需要從句子成分，即詞或詞組，組合構造出句子的意思。近來很多論文展示了如何使用來自「深度學習」的分布式詞表示的改進系統，例如word2vec和GloVe。但是，這些工作並沒有真正地構建深度學習模型。我希望未來能有更多的人關注「是否能夠構建具有組合語義能力的深度學習系統」這種更貼近語言學範疇的問題。

與計算語言學和深度學習相關的科學問題

我希望大家不要陷入採用詞向量獲取不過幾個百分點性能提升的怪圈。我更強烈地希望，大家能夠回到一些有趣的語言和認知問題上來，能夠推進非範疇的表示和神經網絡方法。

語言中非範疇現象的一個例子是，V-ing形式動名詞（如driving）的詞性標註問題。該形式通常被認為介於動詞和名詞之間。而實際上，情況可能還更加複雜，因為V-ing形式實際上可以出現在喬姆斯基(Chomsky)提出的所有四種核心範疇中，見表1。

更有意思的地方在於，有證據表明，語言在名詞和動詞之間不僅存在模糊性，還存在著混合狀態。例如，經典的語言學教材會指出限定詞要與名詞共同使用，而判斷一個詞是不是動詞，可以看它能不能帶直接賓語。然而我們知道，動名詞的名詞化用法可以兩者兼顧：

The not observing this rule is that which the world has blamed in our satorist. (Dryden, Essay Dramatick Poesy, 1684, page 310)
世界給予我們饑荒以作為我們無視這條規則的懲罰。

The only mental provision she was making for the evening of life, was the collecting and transcribing all the riddles of every sort that she could meet with. (Jane Austen, Emma, 1816)
她為人生暮年準備的唯一精神食糧是收集並且改編她能看到的所有種類的謎語。

The difficulty is in the getting the gold into Erewhon. (Sam Butler, Erewhon Revisited, 1902)
困難在於將黃金送進烏有之鄉。

這些現象經常會在短語結構樹中被解釋為某種詞類活用(category-change operation)，然而有充分的證據表明，這其實是語言的非範疇行為。

實際上，這樣的結構早期曾被羅斯(Ross)作為範疇「擠壓(squish)」的例子。隨著時代變遷，V-ing形式正逐步動詞化，但是在很多時候，它仍呈現明顯的膠著狀態。例如，我們可以對以下句子有清楚的判斷：

Tom’s winning the election was a big upset.
湯姆贏得這次選舉是一個大逆轉。

This teasing John all the time has got to stop.
約翰一直以來受到的嘲弄停止了。

There is no marking exams on Fridays.
周五沒有計分的考試。

The cessation hostilities was unexpected.
停戰是出乎意料的。

各種限定詞和動詞賓語的組合聽著有點兒彆扭，但比在-ation名詞化的後面放直接賓語好得多。文獻表明，與在口語中-ing和-in』之間變換的連續性解釋相比，對V-ing形式的離散詞性標註分類預測並不太成功，這表明「語法範疇存在連續性，從而使不同類別之間的邊界不那麼明顯。」

我研究生時期的同學惠特尼·泰伯(Whitney Tabor)提供了另一個不同且有趣的案例。泰伯研究了kind of和sort of的使用，我曾將其作為1999年出版的教材緒論中的例子。名詞kind和sort既可以放在一個名詞的前面，也可以被用作程度狀語：

有趣之處在於，通過對帶有歧義形式（例如下面這對例子）做再分析的方式，可以說明一種形式是如何從另一種形式轉換而來的。

泰伯探討了為什麼古英語有kind，卻很少甚至沒有kind of的用法。在中古英語的開始階段，帶有歧義的上下文為再分析提供了機會，開始出現表示程度的用法（如句子(13)是1570年的例子），接著，在那之後，明確表意為程度狀語的例子開始出現（如句子(14)是1830年的例子）：

A nette sent in to the see, and of alle kind of fishis gedrynge (Wyclif, 1382)

Their finest and best, is a kind of course red cloth (True Report, 1570)

I was kind of provoked at the way you came up (Mass. Spy, 1830)

這是歷史，而且不是同時出現。而如今，孩子們大概會同時掌握kind/sort of的兩種用法。有讀者注意到我在本文第一段引用的那句話嗎？那就是個很好的例子。

自然語言處理現在有點像只（夜間公路上）被「深度學習」（這部高速行駛「汽車」的「前大燈」）晃瞎了眼睛的兔子。

惠特尼·泰伯採用了一個小的但已具備深層（2個隱層）遞歸特性的神經網絡來對這個演化過程建模。他是1994年在斯坦福利用與戴夫·魯梅爾哈特(Dave Rumelhart)合作的機會完成這件事的。

就在最近，開始出現一些新的工作，通過利用分布式表示來建模並解釋語言演化。文獻採用了更傳統的隱含主題分析方法來產生分布式詞表示，展示了詞表示方法是如何能夠捕捉語義變化的：隨著時間的推移，指稱的拓展和窄化。他們考察了很多案例，例如deer在古英語中指代任意動物，而在中古英語和現代英語中則被明確指代一類動物。詞彙dog和hound的意義則發生了交換：hound在中古英語中被用於指代任意犬類，而現在被用於指代狗的一個特定亞種，而dog則恰好相反。

庫爾卡尼(Kulkarni)等人使用神經詞嵌入表示(neural word embedding)來對20世紀中的詞義演化（如gay等詞）進行建模（利用在線的谷歌圖書詞頻統計器(Google Books Ngrams)語料庫）。在近期國際計算語言學大會研討會上，金(Kim)等人採用了類似的方法（即word2vec）來考察最近的詞義演化。例如，他們在圖1中展示了2000年左右，詞彙cell的含義是怎樣從接近closet（小室）和dungeon（地牢）迅速轉換到接近phone（電話）和cordless（無繩）的。某時期的詞義是由它的所有義項的使用頻率加權平均得到的。

更科學地利用分布式表示和深度學習進行現象建模是神經網絡昔日繁榮時的特徵。最近在網上有一些關於深度學習引用與功勞歸屬的紛爭，從這個角度來看，我認為有兩個人的功勞鮮有人提及，他們是戴夫·魯梅爾哈特和傑伊·麥克利蘭(Jay McClelland)。從聖地牙哥(San Diego)的並行分布式處理研究組(the Parallel Distributed Processing Research Group)開始，他們就致力於對神經網絡進行更科學的和認知層面的研究。

現在，對於神經網絡是否足以應對由規則支配的語言行為，的確有一些很好的質疑和問題。我們領域中的老成員應該還記得，對於神經網絡是否足以應對由規則支配的語言行為的爭論，正是史蒂夫·平克(Steve Pinker)成名的基礎——也是他的6個研究生學術生涯的基礎。此處沒有篇幅展開討論這些問題。但說到底，我認為這是一場富有成果的爭論。這場爭論引發了保羅·斯莫倫斯基(Paul Smolensky)的大量工作，旨在探討神經基質中範疇系統是如何形成和表示的。實際上，可以說保羅·斯莫倫斯基在愛麗絲的「兔子洞」裡走得太遠了，他大部分學術生涯用在了建立一個新的語音範疇模型，即優選理論。現在有很多早期的科學工作被忽視了。最好是將自然語言處理重點回到自然語言處理的認知和科學研究，而非停留在幾乎完全使用某種工程模型的研究上。

總的來說，無論對於機器學習的未來發展，還是工業應用問題，自然語言處理都被認為是重點，生活在這樣的時代，我認為我們應當感到激動和高興。未來是光明的。不過，我仍會鼓勵大家去思考人類語言的問題、架構、認知科學和相關細節，語言是如何習得的、處理的和變化的，而不是僅僅追逐某個標準測試集上最高評測數值。

致謝：
這篇「結束語(Last Words)」欄目的文章包含了我在2015年國際計算語言學大會主席報告的部分內容。感謝保拉·梅洛(Paola Merlo)建議將它寫出來發表。

作　者：
克里斯多福·D. ·曼寧(Christopher D. Manning)：
就職於美國史丹福大學計算機科學與語言學系。

譯　者：

劉知遠
CCF高級會員。清華大學助理研究員。主要研究方向為自然語言處理與社會計算。

李若愚
CCF學生會員。清華大學本科生。

「哈工大SCIR」公眾號

編輯部：郭江，李家琦，徐俊，李忠陽，俞霖霖

本期編輯：徐俊

長按下圖並點擊「識別圖中二維碼」，即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號：」哈工大SCIR」。點擊左下角「閱讀原文」，即可查看原文。

計算語言學與深度學習

相關焦點

CCL 2016| 中科院張鈸院士:後深度學習時代的計算語言學

計算語言學前景廣闊

馮志偉談計算語言學

當前計算語言學發展的幾個特點

計算語言學相關資料

計算語言學漫遊指南 | 語言學午餐

計算語言學研究70年(一)

計算語言學研究所:支流的風景一樣好

第二十屆中國計算語言學大會(CCL 2021) 徵稿啟事

深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?

計算社會語言學:是啥?咋搞?

現代語言學之父喬姆斯基談深度學習的未來

從語言學到深度學習NLP,一文概述自然語言處理

計算語言學,iBrandUp人物

來自一個計算語言學的不完全指南

——《計算語言學方法研究》成果選介

計算語言學院校信息大匯總!丨語言學午餐

第十九屆中國計算語言學大會(CCL 2020)

關注人工智慧時代的語言學研究

【學科】大哉,計算語言學之為用