計算語言學與深度學習

2021-02-19 哈工大SCIR

來源:《中國計算機學會通訊》2016年第3期《譯文》
作者:克里斯多福·D.·曼寧(Christopher D. Manning)
譯者:劉知遠 李若愚

深度學習的海嘯

近年來,深度學習的浪潮一直拍打著計算語言學的海岸,而2015年似乎是深度學習「海嘯」全力衝擊自然語言處理領域主流會議的一年。然而,有些學者預測,海嘯最終的破壞力還會更加劇烈。與在法國裡爾舉行的2015國際機器學習大會(International Conference on Machine Learning, ICML)同時,舉行了差不多同樣規模的2015深度學習研討會。在研討會結束時舉行了一場專題討論,在討論中尼爾·勞倫斯(Neil Lawrence)說:「自然語言處理的處境現在有點像只夜間公路上的兔子,被『深度學習』這部高速行駛『汽車』的『前大燈』晃瞎了眼睛,只能束手待斃。」計算語言學者們應當認真對待這個論斷。對我們而言,深度學習就是我們研究的終點了嗎?這些關於深度學習威力的預測從何而來呢?

2015年6月,在臉譜(Facebook)巴黎人工智慧實驗室的成立大會上,實驗室主任雅恩·樂昆(Yann LeCun)說:「深度學習的下一個重要目標是自然語言的理解,這將讓機器不只是具有理解單個字詞的能力,還將具備理解句子和段落的能力。」2014年11月,在一場紅迪網(Reddit)在線提問(Ask Me Anything,AMA)活動中,欣頓(Geoffrey Hinton)說:「我認為接下來的五年裡最激動人心的領域將是真正理解文本和視頻。如果這五年裡我們無法讓機器自動瀏覽YouTube視頻並能夠講述視頻中發生的事情,那麼我會非常失望。在這幾年時間內,我們要把深度學習功能嵌入晶片中,這樣就可以把能夠自動翻譯英語的晶片植入人耳,就像『巴比倫魚(Babel Fish,《銀河系漫遊指南》中的虛擬外形魚,只要放在耳朵裡就可以翻譯任何語言)』那樣實現即時翻譯。」而深度學習的第三位重要學者尤舒·本希奧(Yoshua Bengio),也逐漸將他課題組的研究轉向自然語言,最近在神經機器翻譯(neural machine translation)系統方面取得激動人心的成果。不是只有深度學習專家才有這樣的看法。在2014年9月的一場在線提問活動中,機器學習的學術帶頭人麥可·喬丹(Michael Jordan)被問到,「如果你獲得10億美元經費,資助你領導一項大型研究項目,你想要做什麼?」他的回答是:「我將使用這10億美元來建立一個美國航空航天局規模的項目,專注於自然語言處理,包括所有重要的問題(語義分析、語用學等)。」他還表示:「理智地看,我認為自然語言處理非常迷人,讓我們得以集中研究高度結構化的推理問題,研究那些通向『什麼是思想』的核心又還具有重要實際意義的課題,以及研究無疑會讓世界變成更美好地方的技術。」這應當是不錯的前景。那麼計算語言學者們還要害怕深度學習麼?我認為並不需要。回到欣頓提及的《銀河系漫遊指南》(Hitchhiker’s Guide to the Galaxy),我們把書翻過來看看它的封底,那裡有醒目的友情提示:「別慌。

深度學習的成就

毫無疑問,近年來深度學習取得了驚人的進展,我不想窮舉所有的成功案例,在這裡我只舉一個例子。最近有篇谷歌博客文章介紹了谷歌語音(Google Voice)新推出的語音轉寫系統Neon。在承認谷歌語音過去的語音郵件轉寫功能不夠智能的問題後,博客開始介紹Neon是新開發出來的、更準確的轉寫系統。博客是這麼說的:「通過採用一個(深呼吸!)長短時記憶深度遞歸神經網絡(long short-term memory deep recurrent neural network)(哇!),我們將轉錄錯誤率降低了49%。」研製一種新的解決方案,將過去最好的系統的錯誤率減半,這不正是我們每個人的夢想麼?

為什麼計算語言學家不需要擔心

麥可·喬丹在在線提問活動中表示他不相信深度學習能夠解決自然語言處理問題,他指出:「雖然現在很多深度學習研究聲稱能夠搞定自然語言處理,但我認為:

」喬丹提到的第一個理由無疑是對的:到目前為止,在更高級的自然語言處理任務中,深度學習並未像在語音識別、物體識別等任務上做到的那樣,顯著降低錯誤率。儘管在這些任務上採用深度學習技術能夠有些成效,但與在其他方面所得到的動輒25%或50%的錯誤率降低相比,不免相形見絀。因此,我們容易想到這種狀態也許會一直持續,深度學習只有在視聽等信號處理任務上才有可能創造奇蹟。另一方面,我對喬丹的第二個理由並不以為然。但是,對於為什麼自然語言處理無須擔心深度學習,我的確有自己的兩個理由:

而這些領域問題並未消失。約瑟夫·雷辛格(Joseph Reisinger)在他的博客中寫道:「我經常會遇到那些推銷『通用機器學習』的創業公司,老實講這個創意很荒唐。機器學習不是無差別舉重項目,也不能像亞馬遜彈性計算雲EC2(Elastic Compute Cloud)那樣商品化(commoditizable),機器學習與其說是編程,不如說更像設計。」而從事語言學和自然語言處理的人正是設計師。近幾年的國際計算語言學會議(the Association for Computational Linguistics, ACL)把注意力過分集中於數字和擊敗最好的方法上,那還不如改名叫「Kaggle大賽」好了。我們的領域應當更關注問題、方法和架構本身。最近,我和很多合作者一起在Universal Dependencies(通用依賴關係)的發展上投入大量精力,旨在研製一個能夠用於所有人類語言的通用的依存句法表示、詞性標註(Part of Speech tagging, POS)和特徵標籤集合,並希望其具有可接受的正確率和易用性。這只是一個例子,在我們領域還有很多其他正在進行的設計工作,例如抽象語義表示(abstract meaning representation)。

語言的深度學習

深度學習可以在自然語言處理的哪些方面發揮作用呢?到目前為止,自然語言處理取得的主要提升並非來自真正的深度學習(即採用層次結構的抽象表示來提高泛化能力),而是更多地來自分布式的詞表示,即對詞語和概念採用實數向量表示。採用稠密、多維向量表示方法來計算詞語相似度,對自然語言處理和相關領域都非常有用。實際上,分布式表示的重要性可以追溯到神經網絡早期提出的「並行分布式處理」的思想,在當時這更多地還是從認知科學角度受到關注。分布式表示可以更好地解釋類似人類的泛化能力,同時從工程角度來看,通過使用低維、稠密向量進行詞表示,能夠讓我們更好地對大規模上下文語境(large contexts)建模,從而極大地改善語言模型。從這個全新的角度來看,傳統基於N-Gram的語言模型由於階數增加會帶來指數級的稀疏性,似乎不再實用。

我堅信深度模型終將發揮作用。從理論上講,深度表示內部的共享機制會帶來指數級的表徵優勢,也將在實際應用中改善學習系統的性能。深度學習系統的構建方法很有吸引力且威力強大:研究者只需要定義模型架構和頂層損失函數,就能通過一個端到端的學習框架,自動調整模型參數和表示,從而將這個損失函數最小化。在最近的神經機器翻譯中,我們已經見識到這種深度學習系統的威力。

最後,我一直倡導更多地關注模型的語義組合能力,特別是語言,還有通用人工智慧。智能需要具備以小見大的能力,能夠從較小的部分理解更大的整體。特別是在語言方面,對新穎複雜句子的理解很大程度上需要從句子成分,即詞或詞組,組合構造出句子的意思。近來很多論文展示了如何使用來自「深度學習」的分布式詞表示的改進系統,例如word2vec和GloVe。但是,這些工作並沒有真正地構建深度學習模型。我希望未來能有更多的人關注「是否能夠構建具有組合語義能力的深度學習系統」這種更貼近語言學範疇的問題。

與計算語言學和深度學習相關的科學問題

我希望大家不要陷入採用詞向量獲取不過幾個百分點性能提升的怪圈。我更強烈地希望,大家能夠回到一些有趣的語言和認知問題上來,能夠推進非範疇的表示和神經網絡方法。

語言中非範疇現象的一個例子是,V-ing形式動名詞(如driving)的詞性標註問題。該形式通常被認為介於動詞和名詞之間。而實際上,情況可能還更加複雜,因為V-ing形式實際上可以出現在喬姆斯基(Chomsky)提出的所有四種核心範疇中,見表1。

更有意思的地方在於,有證據表明,語言在名詞和動詞之間不僅存在模糊性,還存在著混合狀態。例如,經典的語言學教材會指出限定詞要與名詞共同使用,而判斷一個詞是不是動詞,可以看它能不能帶直接賓語。然而我們知道,動名詞的名詞化用法可以兩者兼顧:

The not observing this rule is that which the world has blamed in our satorist. (Dryden, Essay Dramatick Poesy, 1684, page 310)
世界給予我們饑荒以作為我們無視這條規則的懲罰。

The only mental provision she was making for the evening of life, was the collecting and transcribing all the riddles of every sort that she could meet with. (Jane Austen, Emma, 1816)
她為人生暮年準備的唯一精神食糧是收集並且改編她能看到的所有種類的謎語。

The difficulty is in the getting the gold into Erewhon. (Sam Butler, Erewhon Revisited, 1902)
困難在於將黃金送進烏有之鄉。

這些現象經常會在短語結構樹中被解釋為某種詞類活用(category-change operation),然而有充分的證據表明,這其實是語言的非範疇行為。

實際上,這樣的結構早期曾被羅斯(Ross)作為範疇「擠壓(squish)」的例子。隨著時代變遷,V-ing形式正逐步動詞化,但是在很多時候,它仍呈現明顯的膠著狀態。例如,我們可以對以下句子有清楚的判斷:

Tom’s winning the election was a big upset.
湯姆贏得這次選舉是一個大逆轉。

This teasing John all the time has got to stop.
約翰一直以來受到的嘲弄停止了。

There is no marking exams on Fridays.
周五沒有計分的考試。

The cessation hostilities was unexpected.
停戰是出乎意料的。

各種限定詞和動詞賓語的組合聽著有點兒彆扭,但比在-ation名詞化的後面放直接賓語好得多。文獻表明,與在口語中-ing和-in』之間變換的連續性解釋相比,對V-ing形式的離散詞性標註分類預測並不太成功,這表明「語法範疇存在連續性,從而使不同類別之間的邊界不那麼明顯。」

我研究生時期的同學惠特尼·泰伯(Whitney Tabor)提供了另一個不同且有趣的案例。泰伯研究了kind of和sort of的使用,我曾將其作為1999年出版的教材緒論中的例子。名詞kind和sort既可以放在一個名詞的前面,也可以被用作程度狀語:

有趣之處在於,通過對帶有歧義形式(例如下面這對例子)做再分析的方式,可以說明一種形式是如何從另一種形式轉換而來的。

泰伯探討了為什麼古英語有kind,卻很少甚至沒有kind of的用法。在中古英語的開始階段,帶有歧義的上下文為再分析提供了機會,開始出現表示程度的用法(如句子(13)是1570年的例子),接著,在那之後,明確表意為程度狀語的例子開始出現(如句子(14)是1830年的例子):

A nette sent in to the see, and of alle kind of fishis gedrynge (Wyclif, 1382)

Their finest and best, is a kind of course red cloth (True Report, 1570)

I was kind of provoked at the way you came up (Mass. Spy, 1830)

這是歷史,而且不是同時出現。而如今,孩子們大概會同時掌握kind/sort of的兩種用法。有讀者注意到我在本文第一段引用的那句話嗎?那就是個很好的例子。

自然語言處理現在有點像只(夜間公路上)被「深度學習」(這部高速行駛「汽車」的「前大燈」)晃瞎了眼睛的兔子。

惠特尼·泰伯採用了一個小的但已具備深層(2個隱層)遞歸特性的神經網絡來對這個演化過程建模。他是1994年在斯坦福利用與戴夫·魯梅爾哈特(Dave Rumelhart)合作的機會完成這件事的。

就在最近,開始出現一些新的工作,通過利用分布式表示來建模並解釋語言演化。文獻採用了更傳統的隱含主題分析方法來產生分布式詞表示,展示了詞表示方法是如何能夠捕捉語義變化的:隨著時間的推移,指稱的拓展和窄化。他們考察了很多案例,例如deer在古英語中指代任意動物,而在中古英語和現代英語中則被明確指代一類動物。詞彙dog和hound的意義則發生了交換:hound在中古英語中被用於指代任意犬類,而現在被用於指代狗的一個特定亞種,而dog則恰好相反。

庫爾卡尼(Kulkarni)等人使用神經詞嵌入表示(neural word embedding)來對20世紀中的詞義演化(如gay等詞)進行建模(利用在線的谷歌圖書詞頻統計器(Google Books Ngrams)語料庫)。在近期國際計算語言學大會研討會上,金(Kim)等人採用了類似的方法(即word2vec)來考察最近的詞義演化。例如,他們在圖1中展示了2000年左右,詞彙cell的含義是怎樣從接近closet(小室)和dungeon(地牢)迅速轉換到接近phone(電話)和cordless(無繩)的。某時期的詞義是由它的所有義項的使用頻率加權平均得到的。

更科學地利用分布式表示和深度學習進行現象建模是神經網絡昔日繁榮時的特徵。最近在網上有一些關於深度學習引用與功勞歸屬的紛爭,從這個角度來看,我認為有兩個人的功勞鮮有人提及,他們是戴夫·魯梅爾哈特和傑伊·麥克利蘭(Jay McClelland)。從聖地牙哥(San Diego)的並行分布式處理研究組(the Parallel Distributed Processing Research Group)開始,他們就致力於對神經網絡進行更科學的和認知層面的研究。

現在,對於神經網絡是否足以應對由規則支配的語言行為,的確有一些很好的質疑和問題。我們領域中的老成員應該還記得,對於神經網絡是否足以應對由規則支配的語言行為的爭論,正是史蒂夫·平克(Steve Pinker)成名的基礎——也是他的6個研究生學術生涯的基礎。此處沒有篇幅展開討論這些問題。但說到底,我認為這是一場富有成果的爭論。這場爭論引發了保羅·斯莫倫斯基(Paul Smolensky)的大量工作,旨在探討神經基質中範疇系統是如何形成和表示的。實際上,可以說保羅·斯莫倫斯基在愛麗絲的「兔子洞」裡走得太遠了,他大部分學術生涯用在了建立一個新的語音範疇模型,即優選理論。現在有很多早期的科學工作被忽視了。最好是將自然語言處理重點回到自然語言處理的認知和科學研究,而非停留在幾乎完全使用某種工程模型的研究上。

總的來說,無論對於機器學習的未來發展,還是工業應用問題,自然語言處理都被認為是重點,生活在這樣的時代,我認為我們應當感到激動和高興。未來是光明的。不過,我仍會鼓勵大家去思考人類語言的問題、架構、認知科學和相關細節,語言是如何習得的、處理的和變化的,而不是僅僅追逐某個標準測試集上最高評測數值。

致謝:
這篇「結束語(Last Words)」欄目的文章包含了我在2015年國際計算語言學大會主席報告的部分內容。感謝保拉·梅洛(Paola Merlo)建議將它寫出來發表。

作 者:
克里斯多福·D. ·曼寧(Christopher D. Manning):
就職於美國史丹福大學計算機科學與語言學系。

譯 者:

劉知遠
CCF高級會員。清華大學助理研究員。主要研究方向為自然語言處理與社會計算。

李若愚
CCF學生會員。清華大學本科生。

「哈工大SCIR」公眾號

編輯部:郭江,李家琦,徐俊,李忠陽,俞霖霖

本期編輯:徐俊

長按下圖並點擊 「識別圖中二維碼」,即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公共號:」哈工大SCIR」 。點擊左下角「閱讀原文」,即可查看原文。

相關焦點

  • CCL 2016| 中科院張鈸院士:後深度學習時代的計算語言學
    先簡單介紹下兩個會議的背景——CCL(全國計算語言學學術會議)從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,著重於中國境內各類語言的計算處理,為研討和傳播計算語言學最新的學術和技術成果提供了高水平的交流平臺
  • 計算語言學前景廣闊
    教育部語言文字應用研究所研究員馮志偉告訴記者,面對信息網絡時代的新要求,不少語言學家都在努力學習計算機自然語言處理技術,不斷更新知識再學習,成為兼通語言學、數學和計算機科學的新一代語言學家。北京大學是計算語言學研究的重鎮。談到當前計算語言學前沿時,北京大學計算語言學研究所所長王厚峰向記者表示,近20多年來,統計與機器學習方法在自然語言處理中佔據主導地位。
  • 馮志偉談計算語言學
    20世紀80年代後期計算語言學開始戰略轉移,採用經驗主義的方法,從大規模的真實的語料庫中獲取語言知識,提高了自然語言處理的效果,進入21世紀之後,計算語言學使用神經網絡的方法,不再用手工獲取自然語言的特徵,而是通過深度學習,讓計算機自動地從語料庫中獲取自然語言的特徵,自然語言處理的效果進一步提高。
  • 當前計算語言學發展的幾個特點
    第二,自然語言處理中越來越多地使用機器學習(machine learning)的方法來獲取語言知識,基於神經網絡的深度學習(deep learning)方法成為計算語言學的主流方法。進入21世紀後,計算語言學中經驗主義傾向進一步以驚人的步伐加速發展。
  • 計算語言學相關資料
    發展歷程通過這個定義,我們可以看出計算語言學是計算機科學、語言學等不同領域而又彼此交叉的學科。 再次,馮(2011)指出了當前的計算語言學發展的四個特點,其一是大規模真實文本的處理成為計算語言學的主要戰略目標;其二,計算語言學中越來越多地使用機器自動學習的方法來獲取語言知識;其三,計算語言學中越來越多地使用統計數學方法來分析語言數據;其四,計算語言學越來越重視詞彙的作用,出現了「詞彙主義」(lexicalism)的傾向。
  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 計算語言學研究70年(一)
    第十三章 計算語言學研究70年第一節 引言計算語言學是利用計算機技術,從計算的角度出發,尋找自然語言的規律,以使得計算機系統能夠像人類那樣理解和生成自然語言的研究。計算語言學是一門交叉學科,它涉及語言學、數學以及計算機科學等。在計算機領域,被稱為自然語言處理。當處理的對象為中文時,稱中文信息處理。1950年提出的圖靈測試一般被認為是自然語言處理思想的發端。
  • 計算語言學研究所:支流的風景一樣好
    在北大理科一號樓四層的一個走廊裡,「計算語言學研究所」的牌子安靜地掛著。徑直往裡走,便能看到辦公室裡學者們忙碌的身影。雖然隸屬於號稱「北大第一大院」的信息科學技術學院,但計算語言學研究所卻鮮為人知,「計算語言學」這個學科也被冠以「冷門」的名號。
  • 第二十屆中國計算語言學大會(CCL 2021) 徵稿啟事
    「第二十屆中國計算語言學大會」(The Twentieth China National Conference on Computational Linguistics, CCL 2021)將於2021年8月13-15日在呼和浩特市舉行,會議由內蒙古大學承辦。中國計算語言學大會創辦於1991年,由中國中文信息學會計算語言學專業委員會負責組織。
  • 深度學習在NLP領域成績斐然,計算語言學家該不該驚慌?
    Manning機器之心編譯機器翻譯、聊天機器人等自然語言處理應用正隨著深度學習技術的進展而得到更廣泛和更實際的應用,甚至會讓人認為深度學習可能就是自然語言處理的終極解決方案,但史丹福大學計算機科學和語言學教授 Christopher D. Manning 並不這麼看,他認為深度學習確實能在自然語言處理領域有很大作為,但卻並不能取代計算語言學。
  • 計算社會語言學:是啥?咋搞?
    在這一部分,我們將反映計算語言學領域面臨的挑戰。在某種程度上,這些挑戰與這樣一個事實有關,即在整個語言技術領域,社會科學研究的方法通常不受重視,因此也不被教授。對那些即使被理解和接受的容易採用的方法,人們也很不熟悉。但是,在學習分析等相關領域已經出現了一些有希望的搭建溝通的例子。
  • 現代語言學之父喬姆斯基談深度學習的未來
    我們的談話內容涉及深度學習可能存在的局限性,以及神經網絡可以在多大程度上模擬生物大腦,還涉及到了更具哲學性的領域。在這篇文章中,我不會直接引用喬姆斯基教授的話,因為我們的討論是非正式的,但我將嘗試總結其中的要點。本文最初發布於 Towards Data Science 博客,由 InfoQ 中文站翻譯並分享。喬姆斯基是誰?
  • 從語言學到深度學習NLP,一文概述自然語言處理
    第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。該論文回顧了 NLP 之中的深度學習重要模型與方法,比如卷積神經網絡、循環神經網絡、遞歸神經網絡;同時還討論了記憶增強策略、注意力機制以及無監督模型、強化學習模型、深度生成模型在語言相關任務上的應用;最後還討論了深度學習的各種框架,以期從深度學習的角度全面概述 NLP 發展近況。
  • 計算語言學,iBrandUp人物
    點擊播放 GIF 0.0M- 這篇專訪將聚焦於計算語言學-△ 陳佳媛關鍵詞計算語言學、語言哲學、計算美學、AI設計是先學寫代碼,而後學習英語。英語是最為通用的媒介,不僅計算機程式語言大多是英語,很多最新的信息和研究進展,都需要運用英語去學習。畢竟,翻譯前後,實質上已是兩個作品,信息的表達和組成已經改變,從譯作中我們更多的時候是去意會和感受其中的「語言意指」。
  • 來自一個計算語言學的不完全指南
    你只需要掌握相關的知識和技能來解決實際的語言學或應用問題即可,不必要糾結這些概念。計算語言學下面還細分語音處理、文本分析、機器翻譯、知識圖譜等具體方向。因為這三個術語或學科緊密相連,大致的區分按字面就能區分;但深入之後,它們有很多重合的部分。很多學者在理解上也是很有爭議的。甚至有人認為,計算語言學和自然語言處理只是在語言學和計算機科學的不同稱呼,實質相同。
  • ——《計算語言學方法研究》成果選介
    中國共產黨新聞 >> 全國哲學社會科學規劃辦公室 >> 成果選介 >> 學科成果 >> 語言學 計算語言學方法研究 ——《計算語言學方法研究》成果選介
  • 計算語言學院校信息大匯總!丨語言學午餐
    之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
  • 第十九屆中國計算語言學大會(CCL 2020)
    中國計算語言學大會(CCL)聚焦於中國境內各類語言的智能計算和信息處理,為研討和傳播計算語言學最新學術和技術成果提供了最廣泛的高層次交流平臺。
  • 關注人工智慧時代的語言學研究
    「怎樣讓計算機從大規模無標註文本數據中自動學習,得到計算機可以自動識別和處理的文本,成為自然語言處理和機器學習的緊迫任務。」北京大學中文系教授袁毓林認為,重新思考語言學研究和自然語言處理等人工智慧研究的互動關係,既有必要,也很緊迫。語言學理論研究能夠為自然語言處理提供哪些觀念與方法論上的指導?
  • 【學科】大哉,計算語言學之為用
    1913年,俄羅斯著名數學家馬爾可夫就注意到普希金敘事長詩《歐根·奧涅金》中語言符號出現概率之間的相互影響,他試圖以語言符號的出現概率為實例研究隨機過程的數學理論,提出「馬爾可夫鏈」(Markov chain),這一思想後來發展成為在計算語言學中廣為使用的馬爾可夫模型(Markov model),是當代計算語言學最重要的理論支柱之一。