在剛剛過去的高考報考季裡,相信大家都為自己的親朋好友們在茫茫校海中挑花了眼。
之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!
我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
史丹福大學自然語言處理研究組
Stanford NLP Group
https://nlp.stanford.edu/
史丹福大學的 NLP 組無論在人才儲備和推動領域發展上都是最重要和最突出的實驗室之一。從計算語言學中最常用的軟體包 Stanford CoreNLP, 到現在人工智慧領域最熱門的閱讀理解數據集 SQuAD,還有被奉為經典入門公開課的 cs224(d/n),Stanford NLP Group 為計算語言學和自然語言處理領域的發展做出了巨大的貢獻。該實驗室由斯坦福的語言學系和計算機系共同組成,並且目前作為斯坦佛大學的人工智慧實驗室非常重要的一部分。實驗室的主要教授有 Christopher Manning, Dan Jurafsky 和 Percy Liang,三位均是學界的中流砥柱。
Chris 是計算語言學會會士 (ACL Fellow),這可以說是對於計算語言學者的最高榮譽了,他和他的弟子們在各個方向上的都有傑出的貢獻,小編就不在此一一贅述了。Dan 所編著的教程Speech and Language Processing也是計算語言學領域最為經典的教材之一了,目前第三版草稿正在他的主頁上開放閱讀。他另外一本暢銷書《食物語言學》,妙趣橫生地探討了食物名字中的語言學。他還給自己起了個文藝的中文名,「任韶堂」。Percy 的工作主要集中在語義解析(Semantic Parsing)和機器閱讀(Machine Comprehension)等領域,他所主導提出的 SQuAD 數據集是目前人工智慧領域研究的最火熱的數據集之一。
卡耐基梅隆大學 語言技術中心
CMU Language Technologies Institute
https://www.lti.cs.cmu.edu/
CMU在計算機科學方面是全球頂級的學校之一,其中的一個重要原因就是它的LTI 在三大頂級會議(ACL、EMNLP、NAACL)發表的論文數量上名列第一。LTI 另外一個特點就是教授非常多(20位左右),所以在計算語言學上覆蓋的研究方向也更加全面。LTI 在計算語言學方面主要有兩個碩士項目(MLT和MIIS)和一個博士項目 (PhD in Lanaguge Technology)。 其中,MIIS是授課型碩士,課程內容主要圍繞 NLP 在業界的應用展開,無獎學金,對申請者的研究背景要求較低。
MLT 為研究型碩士項目,主要以和導師進行科研為主,兩年後若繼續在CMU讀博,則可以講碩士的兩年作為博士的前兩年抵消,獎學金在入學後確定(據說大部分學生在第二學期可以得到全額獎學金)。 值得一提的是,LTI 的 MLT 與 PhD 的導師都是在入學後進行雙向選擇,而其他大部分學校的博士項目都是在接受offer前就可以確定的。
賓夕法尼亞大學 NLP組
UPenn NLP Group
http://nlp.cis.upenn.edu/
賓夕法尼亞大學有著剛從 UIUC 過來的著名學者 Dan Roth 教授。他也是 ACL Fellow 之一,為計算語言學的發展,尤其是信息抽取領域,做出了非凡的貢獻。另外兩位教授,Chris Callison-Burch 和 Ani Nenkova 也都在自己的領域有所成就。
馬裡蘭大學 計算語言學與信息處理實驗室
UMD CLIP
https://clip.umiacs.umd.edu/
CLIP (Computational Linguistics and Information Processing) 是由UMD的語言學系、計算機科學系以及信息學院共同組建,目前共有9位教授,目前由 Philip Resnik 教授領導。CLIP 的研究範圍非常非常廣泛,從計算語言學的基礎研究(如機器翻譯、信息抽取),到計算語言學與心理語言學、社會語言學(Sociolinguistics)的交叉應用,都有所涉及,甚至還囊括了醫療和城市計算(Urban Computing)等方向。
約翰霍普金斯大學 語言與語音處理中心
JHU CLSP
https://www.clsp.jhu.edu/
JHU 的 CLSP (Center of Language and Speech Processing) 的規模非常大,應該僅次於CMU的LTI,有20位來自計算機系、電子工程系、認知科學系的教授和研究員。這裡也是統計自然語言處理大師 Jelinek 的故居之地,還記得他的那句名言嗎? 「我每開除一位語言學家,模型的準確率就高一個百分點。」
南加州大學
NLP@USC
https://cl.usc.edu/
南加大的NLP實驗室由四大部分組成,分別是 ISI 的 NL Group, ICT 的 Dialogue Group 和 Narrative Group,還有 Signal Analysis and Interpretation Lab (SAIL). 其中,ISI 的 NLG 曾有兩位 ACL Fellow: Kevin Knight 教授和 Daniel Marcu 教授。頗有歷史 summer intern 項目也曾誕生了許多後來的著名學者,如 Yoav Goldberg 教授和剛才提到的 UMD 的 Hal Daume III 教授等等;CMU LTI 的 ACL Fellow,Eduard Hovy 教授也曾獲得 ISI Fellow 的稱號。ICT 的兩個實驗室以人機互動為切入點,重點研究自然語言對話,敘述等方面。
愛丁堡大學 語言認知計算中心
Edinburgh University - ILCC
http://edinburghnlp.inf.ed.ac.uk/
愛丁堡大學的 Institute for Language, Cognition and Computation (ILCC) 是歐洲最大的計算語言學研究機構之一,有11位非常優秀且活躍的教授、研究員。其中 Mirella Lapata 教授是學術界非常著名的學者,我們之前的機器作詩即是在介紹她的論文。該中心有授課型碩士、研究型碩士和博士項目。不過請注意英國博士項目大多要求有碩士學位才可以申請,這和北美博士項目有所不同。
篇幅有限,國外的部分我們就介紹到這裡。其實,還有許多許多優秀的計算語言學實驗室和研究組比如 MIT、UW、Cornell、UCSB、UT-Austin、UT-Dallas等等學校都有不錯的NLP組;澳洲的 ANU,新加坡的SUTD、NTU、NUS,也都是有非常傑出的NLP組,小編這裡只是挑出了自己最熟悉的。
具體的相關招生信息,都可以在給出的網址中查到最新的要求與申請流程。總體來講,北美計算語言學方向的博士項目的申請者大多數是計算機專業的本科生,但很多學校也都在語言學系招生。一般申請博士要更難一些,授課型碩士容易一些,研究型碩士界於兩者之間。
國內院校裡,北大、清華、哈工大、中科院大學、上海交大、復旦大學等大學都有很優秀的實驗室和研究組,我們重點介紹三個規模較大的國內實驗室。
北京大學計算語言學教育部重點實驗室
http://klcl.pku.edu.cn/
該實驗室依託北京大學建設。實驗室研究人員由北大信息科學技術學院計算語言學研究所、中文系、軟體與微電子學院語言信息工程系、計算機技術研究所、心理系和外語學院的相關研究人員構成。 主要研究方向包括:1)中文計算的基礎理論與模型;2)大規模多層次語言知識庫構建的方法;3)國家語言資源整理與語音資料庫建設;4)海量文本內容分析與動態監控;5)多語言信息處理和機器翻譯。其中,萬小軍、李素建、王厚峰、常寶寶、穗志方等教授非常活躍。
清華大學自然語言處理與社會人文計算實驗室
http://nlp.csai.tsinghua.edu.cn/
該實驗室是國內開展相關研究最早、深具影響力的科研單位,同時也是中國中文信息學會計算語言學專業委員會的掛靠單位。孫茂松教授任該專業委員會的主任。該課題組現正瞄準以中文為核心的自然語言處理中的若干前沿課題,進行系統、深入的研究,研究領域的涵蓋面正逐步從計算語言學的核心問題擴展到社會計算和人文計算。黃民烈、李涓子、劉洋、劉知遠等教授都非常活躍,論文質量都非常高。順便一提,劉知遠教授在知乎發表的學術相關內容對了解計算語言學非常有價值,很推薦閱讀。該實驗室發布的THULAC、OpenKE等軟體包也為中文信息處理帶來了非常重要的開源貢獻!
哈工大社會計算與信息檢索研究中心
http://ir.hit.edu.cn/
哈工大的該實驗室是國內最具規模的自然語言處理實驗室,研究方向包括語言分析(language understanding)、信息抽取(Information Extraction)、情感分析(Sentiment Analysis)、問答系統(QA System)、社會媒體處理和用戶畫像(User Profiling)等方向。它推出的開源工具包「語言技術平臺LTP」,獲2010年錢偉長中文信息處理科學技術一等獎,是中文計算語言學不可多得貢獻。在國際計算任務評測 CoNLL 上也多次代表中國研究機構獲得佳績。 值得一提的是,華人 ACL Fellow 王海峰博士也是該實驗室的兼職教授。
一個一個地為讀者朋友們介紹院校是不可能做到的,授人以魚不如授人以漁,那麼如何查找到合適自己學校和導師呢? 這裡介紹給大家兩個網站。
http://csrankings.org/#/fromyear/2015/toyear/2018/index?nlp
CSRankings.org 是相對來說最透明的計算機相關專業的排名網站,以頂級會議論文為標準來對某一特定方向進行排序。可以看到圖中我們只選了NLP領域、年份區間和地區,之後我們就可以看到篩選後的排名;點開一個學校左邊的三角後,還可以看到一個學校內部教授的排序,非常方便。
不過,學校和導師排名僅僅只能說明一部分問題,學生對導師的真實評價也是非常重要的因素。導師評價網(mysupervisor.org)創造了一個分享對導師評價的平臺,可以用作參考。
最後,希望各位在求學路上的讀者們能夠找到最合適自己的院校!
《語言學周刊》第8期
一份獨立自由的語言學愛好者通訊刊物
語言學午餐出品