計算語言學院校信息大匯總!丨語言學午餐

2021-03-01 語言學午餐Ling-Lunch

在剛剛過去的高考報考季裡,相信大家都為自己的親朋好友們在茫茫校海中挑花了眼。

之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!

我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。

史丹福大學自然語言處理研究組

Stanford NLP Group 

https://nlp.stanford.edu/

史丹福大學的 NLP 組無論在人才儲備和推動領域發展上都是最重要和最突出的實驗室之一。從計算語言學中最常用的軟體包 Stanford CoreNLP, 到現在人工智慧領域最熱門的閱讀理解數據集 SQuAD,還有被奉為經典入門公開課的 cs224(d/n),Stanford NLP Group 為計算語言學和自然語言處理領域的發展做出了巨大的貢獻。該實驗室由斯坦福的語言學系和計算機系共同組成,並且目前作為斯坦佛大學的人工智慧實驗室非常重要的一部分。實驗室的主要教授有 Christopher Manning, Dan Jurafsky 和 Percy Liang,三位均是學界的中流砥柱。

Chris 是計算語言學會會士 (ACL Fellow),這可以說是對於計算語言學者的最高榮譽了,他和他的弟子們在各個方向上的都有傑出的貢獻,小編就不在此一一贅述了。Dan 所編著的教程Speech and Language Processing也是計算語言學領域最為經典的教材之一了,目前第三版草稿正在他的主頁上開放閱讀。他另外一本暢銷書《食物語言學》,妙趣橫生地探討了食物名字中的語言學。他還給自己起了個文藝的中文名,「任韶堂」。Percy 的工作主要集中在語義解析(Semantic Parsing)機器閱讀(Machine Comprehension)等領域,他所主導提出的 SQuAD 數據集是目前人工智慧領域研究的最火熱的數據集之一。

 

卡耐基梅隆大學 語言技術中心

CMU Language Technologies Institute

https://www.lti.cs.cmu.edu/


CMU在計算機科學方面是全球頂級的學校之一,其中的一個重要原因就是它的LTI 在三大頂級會議(ACL、EMNLP、NAACL)發表的論文數量上名列第一。LTI 另外一個特點就是教授非常多(20位左右),所以在計算語言學上覆蓋的研究方向也更加全面。LTI 在計算語言學方面主要有兩個碩士項目(MLT和MIIS)和一個博士項目 (PhD in Lanaguge Technology)。 其中,MIIS是授課型碩士,課程內容主要圍繞 NLP 在業界的應用展開,無獎學金,對申請者的研究背景要求較低。

MLT 為研究型碩士項目,主要以和導師進行科研為主,兩年後若繼續在CMU讀博,則可以講碩士的兩年作為博士的前兩年抵消,獎學金在入學後確定(據說大部分學生在第二學期可以得到全額獎學金)。 值得一提的是,LTI 的 MLT 與 PhD 的導師都是在入學後進行雙向選擇,而其他大部分學校的博士項目都是在接受offer前就可以確定的。

賓夕法尼亞大學 NLP組

UPenn NLP Group

http://nlp.cis.upenn.edu/

賓夕法尼亞大學有著剛從 UIUC 過來的著名學者 Dan Roth 教授。他也是 ACL Fellow 之一,為計算語言學的發展,尤其是信息抽取領域,做出了非凡的貢獻。另外兩位教授,Chris Callison-Burch 和 Ani Nenkova 也都在自己的領域有所成就。

 

馬裡蘭大學 計算語言學與信息處理實驗室

UMD CLIP

https://clip.umiacs.umd.edu/

CLIP (Computational Linguistics and Information Processing) 是由UMD的語言學系、計算機科學系以及信息學院共同組建,目前共有9位教授,目前由 Philip Resnik 教授領導。CLIP 的研究範圍非常非常廣泛,從計算語言學的基礎研究(如機器翻譯、信息抽取),到計算語言學與心理語言學、社會語言學(Sociolinguistics)的交叉應用,都有所涉及,甚至還囊括了醫療和城市計算(Urban Computing)等方向。

約翰霍普金斯大學 語言與語音處理中心

JHU CLSP

https://www.clsp.jhu.edu/

JHU 的 CLSP (Center of Language and Speech Processing) 的規模非常大,應該僅次於CMU的LTI,有20位來自計算機系、電子工程系、認知科學系的教授和研究員。這裡也是統計自然語言處理大師 Jelinek 的故居之地,還記得他的那句名言嗎? 「我每開除一位語言學家,模型的準確率就高一個百分點。」 

南加州大學 

NLP@USC

https://cl.usc.edu/

 

南加大的NLP實驗室由四大部分組成,分別是 ISI 的 NL Group, ICT 的 Dialogue Group 和 Narrative Group,還有 Signal Analysis and Interpretation Lab (SAIL). 其中,ISI 的 NLG 曾有兩位 ACL Fellow: Kevin Knight 教授和 Daniel Marcu 教授。頗有歷史 summer intern 項目也曾誕生了許多後來的著名學者,如 Yoav Goldberg 教授和剛才提到的 UMD 的 Hal Daume III 教授等等;CMU LTI 的 ACL Fellow,Eduard Hovy 教授也曾獲得 ISI Fellow 的稱號。ICT 的兩個實驗室以人機互動為切入點,重點研究自然語言對話,敘述等方面。

愛丁堡大學 語言認知計算中心

Edinburgh University - ILCC 

http://edinburghnlp.inf.ed.ac.uk/


愛丁堡大學的 Institute for Language, Cognition and Computation (ILCC) 是歐洲最大的計算語言學研究機構之一,有11位非常優秀且活躍的教授、研究員。其中 Mirella Lapata 教授是學術界非常著名的學者,我們之前的機器作詩即是在介紹她的論文。該中心有授課型碩士、研究型碩士和博士項目。不過請注意英國博士項目大多要求有碩士學位才可以申請,這和北美博士項目有所不同。

篇幅有限,國外的部分我們就介紹到這裡。其實,還有許多許多優秀的計算語言學實驗室和研究組比如 MIT、UW、Cornell、UCSB、UT-Austin、UT-Dallas等等學校都有不錯的NLP組;澳洲的 ANU,新加坡的SUTD、NTU、NUS,也都是有非常傑出的NLP組,小編這裡只是挑出了自己最熟悉的。

具體的相關招生信息,都可以在給出的網址中查到最新的要求與申請流程。總體來講,北美計算語言學方向的博士項目的申請者大多數是計算機專業的本科生,但很多學校也都在語言學系招生。一般申請博士要更難一些,授課型碩士容易一些,研究型碩士界於兩者之間。

國內院校裡,北大、清華、哈工大、中科院大學、上海交大、復旦大學等大學都有很優秀的實驗室和研究組,我們重點介紹三個規模較大的國內實驗室。

北京大學計算語言學教育部重點實驗室

http://klcl.pku.edu.cn/

該實驗室依託北京大學建設。實驗室研究人員由北大信息科學技術學院計算語言學研究所、中文系、軟體與微電子學院語言信息工程系、計算機技術研究所、心理系和外語學院的相關研究人員構成。 主要研究方向包括:1)中文計算的基礎理論與模型;2)大規模多層次語言知識庫構建的方法;3)國家語言資源整理與語音資料庫建設;4)海量文本內容分析與動態監控;5)多語言信息處理和機器翻譯。其中,萬小軍、李素建、王厚峰、常寶寶、穗志方等教授非常活躍。

清華大學自然語言處理與社會人文計算實驗室

http://nlp.csai.tsinghua.edu.cn/

該實驗室是國內開展相關研究最早、深具影響力的科研單位,同時也是中國中文信息學會計算語言學專業委員會的掛靠單位。孫茂松教授任該專業委員會的主任。該課題組現正瞄準以中文為核心的自然語言處理中的若干前沿課題,進行系統、深入的研究,研究領域的涵蓋面正逐步從計算語言學的核心問題擴展到社會計算和人文計算。黃民烈、李涓子、劉洋、劉知遠等教授都非常活躍,論文質量都非常高。順便一提,劉知遠教授在知乎發表的學術相關內容對了解計算語言學非常有價值,很推薦閱讀。該實驗室發布的THULAC、OpenKE等軟體包也為中文信息處理帶來了非常重要的開源貢獻!

哈工大社會計算與信息檢索研究中心

http://ir.hit.edu.cn/

哈工大的該實驗室是國內最具規模的自然語言處理實驗室,研究方向包括語言分析(language understanding)、信息抽取(Information Extraction)、情感分析(Sentiment Analysis)、問答系統(QA System)、社會媒體處理和用戶畫像(User Profiling)等方向。它推出的開源工具包「語言技術平臺LTP」,獲2010年錢偉長中文信息處理科學技術一等獎,是中文計算語言學不可多得貢獻。在國際計算任務評測 CoNLL 上也多次代表中國研究機構獲得佳績。 值得一提的是,華人 ACL Fellow 王海峰博士也是該實驗室的兼職教授。

一個一個地為讀者朋友們介紹院校是不可能做到的,授人以魚不如授人以漁,那麼如何查找到合適自己學校和導師呢? 這裡介紹給大家兩個網站。

http://csrankings.org/#/fromyear/2015/toyear/2018/index?nlp

CSRankings.org 是相對來說最透明的計算機相關專業的排名網站,以頂級會議論文為標準來對某一特定方向進行排序。可以看到圖中我們只選了NLP領域、年份區間和地區,之後我們就可以看到篩選後的排名;點開一個學校左邊的三角後,還可以看到一個學校內部教授的排序,非常方便。

不過,學校和導師排名僅僅只能說明一部分問題,學生對導師的真實評價也是非常重要的因素。導師評價網(mysupervisor.org)創造了一個分享對導師評價的平臺,可以用作參考。

最後,希望各位在求學路上的讀者們能夠找到最合適自己的院校!

《語言學周刊》第8期

一份獨立自由的語言學愛好者通訊刊物

語言學午餐出品

相關焦點

  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 來看看臺灣的大學怎麼上語言學入門課丨語言學午餐
    今天為大家介紹的是臺灣交通大學的一門開放式課程——語言學概論,這個課程是外文系助理教授賴鬱雯博士為大一學生開設的一門語言學入門課程。賴鬱雯博士早年在臺灣大學攻讀昆蟲學,獲得了碩士學位,之後赴美國堪薩斯大學攻讀語言學的碩士和博士,畢業、做完博士後之後回臺任教。
  • 倫敦大學應用語言學研究生全額獎學金機會丨語言學午餐
    類型應用語言學研究生獎學金信息名稱
  • 丨語言學午餐
    在計算語言學裡,判斷一句話的通順程度,一般是通過構建統計語言模型 (statistical language model, 簡稱語言模型) 來完成的。簡單來說,語言模型是在某個語料庫上計算得到的統計模型。它能夠對任意給定的一個句子,計算出這句話在這個語料庫中出現概率。概率越大,就意味著這句話越符合這個語料庫的特徵,自然也就越「通順」。
  • 馮志偉談計算語言學
    作為中國計算語言學的主要開創者和發展見證者之一,已屆望九之年的馮志偉研究員仍治學不輟,為學科發展持續貢獻力量。在他看來,要讓下一代學者做好創新的準備,把基於語言大數據的經驗主義方法和基於語言規則的理性主義方法巧妙地結合起來,從而把計算語言學的研究推向深入。
  • 英國語言學專業院校大全丨語言學午餐
    Linguistics DepartmentYork St John University English Language and Linguistics本文轉自LinguistList.org© 語言學午餐
  • 計算語言學前景廣闊
    教育部語言文字應用研究所研究員馮志偉告訴記者,面對信息網絡時代的新要求,不少語言學家都在努力學習計算機自然語言處理技術,不斷更新知識再學習,成為兼通語言學、數學和計算機科學的新一代語言學家。北京大學是計算語言學研究的重鎮。談到當前計算語言學前沿時,北京大學計算語言學研究所所長王厚峰向記者表示,近20多年來,統計與機器學習方法在自然語言處理中佔據主導地位。
  • 【學科】大哉,計算語言學之為用
    喬姆斯基在計算機出現初期就把電腦程式設計語言與自然語言置於相同的平面上,用統一觀點進行研究。在《語法的形式特性》一文中,他用一節篇幅論述程序設計語言,討論有關程序設計語言的編譯程序問題。馬爾可夫、圖靈、香農和喬姆斯基對語言和計算關係的探討,為計算語言學的理論和技術奠定了堅實的基礎。
  • 只有語言學內行人才能看懂的11張圖 | 語言學午餐
    今天,午餐君想帶大家了解一下網際網路上一種病毒式的傳播現象——meme,並一起來看看語言學相關的meme,希望能博君一笑~首先,meme到底是什麼?meme這個詞來自希臘語"mimeme"這個詞的縮寫,意為「複製」。「免費食物?算我一個!」
  • 語言學家的快樂你根本想不到丨語言學午餐
    語言學作為一門與眾多學科關聯密切的學科,涵蓋不可謂不廣,樂趣也不可謂不多,今天我們就來看一看語言學家們的那些小確幸。,沒想落到這步田地……來源於邏輯學的lambda計算是形式語義學的必修課7正在shopping
  • 來自一個計算語言學的不完全指南
    你只需要掌握相關的知識和技能來解決實際的語言學或應用問題即可,不必要糾結這些概念。計算語言學下面還細分語音處理、文本分析、機器翻譯、知識圖譜等具體方向。因為這三個術語或學科緊密相連,大致的區分按字面就能區分;但深入之後,它們有很多重合的部分。很多學者在理解上也是很有爭議的。甚至有人認為,計算語言學和自然語言處理只是在語言學和計算機科學的不同稱呼,實質相同。
  • 中文語言學方向及學校
    寫在前面 現在一般說的「語言學」專業,其實指的是外語專業的「外國語言學及應用語言學」,不是中文下面的二級學科「語言學及應用語言學」。之前轉過一篇《語言學的幾個分支》,說的也是外國語言學。寫中文語言學的文章不多,所以今天來簡單說一下。
  • 計算語言學相關資料
    發展歷程通過這個定義,我們可以看出計算語言學是計算機科學、語言學等不同領域而又彼此交叉的學科。馮志偉於2011年在《外國語》第34卷第1期上發表了《計算語言學的歷史回顧與現狀分析》,簡要地介紹了計算語言學的發展歷程,從20世紀40年代到50年代末的萌芽,其中頗為有名的是1936年Turing給「可計算性」下的嚴格的數學定義,並提出了「圖靈機」[2](Turing Machine)的數學模型。
  • 當前計算語言學發展的幾個特點
    隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的處理成為計算語言學研究的主要戰略目標,基於語言大數據的經驗主義方法在計算語言學中獨佔鰲頭。理性主義方法的一個重要弱點表現在實踐方面。由於建設可靠的標註語料庫花費高且難度大,這促使我們更多地使用無監督的機器學習技術,讓計算機自動地從浩如煙海的語料庫中獲取準確的語言知識。因此,機器詞典和大規模語料庫的建設成為當前計算語言學的熱點。進入21世紀後,傳統的機器學習方法進一步發展成為基於神經網絡的深度學習方法。
  • 2019考研專業:語言學及應用語言學
    中國教育在線訊 2019考研,對考研專業了解越多,考研人越易選出適合自己的方向,中國教育在線考研頻道將陸續推出2019考研業解析系列,進行基本的專業介紹,探析就業前景與方向,推薦知名院校,介紹相近可調劑專業,並以一所高校為例對課程設置進行說明。
  • 計算社會語言學:是啥?咋搞?
    【觀約按】 隨著大數據技術的跨越式發展,「計算」已經越來越成為人文社會科學領域的關鍵詞。除了聚焦於傳統的自然現象描寫、理論發展以及計算科學,數據驅動的探索和發現已經成為了許多方法論框架的有機組成部分,而計算語言學也在這進化之列。以往的計算語言學(Computational Linguistics,以下簡稱CL)主要是捕捉語言的信息維度和語言信息傳遞的結構,對語言的社會維度關注很少。近期,受社交媒體大數據的驅動,CL對研究社會環境中的語言興趣越來越濃了。
  • 丨語言學午餐
    一個國內語言學專業學生的人生路徑:本科:北京語言大學 英語專業碩士研究生:北京外國語大學 英語語言文學專業博士研究生:南加利福尼亞大學 語言學專業天啦嚕,一直到博士階段才換到真正的語言學專業。小編查詢了一下,MIT所有授予理科學士文憑的專業都需要上數理化生專業課(每學科1-3門課)來完成畢業要求。據說,物理中有一門選修課就是關於基礎核彈理論。總有一種MIT語言學專業學生畢業出來也能造核彈的感覺...
  • 神經語言學與失語症 語言學午餐
    (本文選自「中國社會科學在線」;轉載請務必註明出處) 神經語言學作為語言學的重要分支和前沿,橫跨語言學、神經科學、心理學和認知科學等學科,綜合多學科開展語言神經機制和腦功能方面的研究,在很大程度上代表了語言學的當代形態。
  • 計算語言學研究所:支流的風景一樣好
    在北大理科一號樓四層的一個走廊裡,「計算語言學研究所」的牌子安靜地掛著。徑直往裡走,便能看到辦公室裡學者們忙碌的身影。雖然隸屬於號稱「北大第一大院」的信息科學技術學院,但計算語言學研究所卻鮮為人知,「計算語言學」這個學科也被冠以「冷門」的名號。
  • 重建巴別塔,機器翻譯的前世今生丨語言學午餐
    機器翻譯(Machine Translation)想必是大家最耳熟能詳的人工智慧應用之一了,它不僅是計算語言學(Computational Linguistics)的瑰寶,同時也是居家旅行的必需品。雖然機翻已可滿足一些簡單的應用情景,但是它有時犯起蠢來還真是讓人哭笑不得。