來自一個計算語言學的不完全指南

2021-02-21 文苑英華

今天我們來嘗試做一個簡潔又有內容的 計算語言學不完全指南 ,作為之前小調查的第一個回應~

【入門篇


一、什麼是計算語言學?


有些讀者糾結於「計算語言學(Computational Linguistics, CL)」、「自然語言處理(Natural Language Processing)」「語料庫語言學(Corpus Linguistics, CL)」這幾個術語或學科的關係。

其實這完全是沒有必要的。你只需要掌握相關的知識和技能來解決實際的語言學或應用問題即可,不必要糾結這些概念。計算語言學下面還細分語音處理、文本分析、機器翻譯、知識圖譜等具體方向。

因為這三個術語或學科緊密相連,大致的區分按字面就能區分;但深入之後,它們有很多重合的部分。很多學者在理解上也是很有爭議的。甚至有人認為,計算語言學和自然語言處理只是在語言學和計算機科學的不同稱呼,實質相同。


二、計算語言學有哪些書籍可以推薦?


這是很多讀者都關心的問題。下面簡單列舉基本入門的著作:

1.計算語言學,翁富良、 王野翊,中國社會科學出版社,2016
這本書很薄,寫作時間較早。包含數學等基礎,可以入門。

2.計算語言學(修訂版),劉穎,清華大學出版社,2014
這本書很簡單,介紹較全面。可以入門。

3.統計自然語言處理(第2版),宗成慶,清華大學出版社,2013
內容非常全面,包含相關學科基礎,適合基礎入門。

4.Speech and Language Processing: An Introduction to Natural Language Processing,. Computational Linguistics, and Speech Recognition (Second Edition),Daniel Jurafsky, James H. Martin,Pearson,2014
內容非常全面,包含相關學科基礎,適合基礎入門。

簡單說,前兩本比較簡單,而後兩本比較厚重。如果只是想了解下計算語言學,前兩本任意一本即可。但若是想深入了解,請認真鑽研後兩本,你翻翻該書的目錄就會驚嘆!

此外,要指出的是,Speech and Language Processing一書作者正在寫作第三版,相關文檔已經分享在相關網站,https://web.stanford.edu/~jurafsky/slp3/。

進階篇


三、計算語言學要學一門程式語言嗎?


一般來講,掌握一門程式語言對學科的理解會加深許多,也會更容易理解之後模型、算法的設計和原理。

如果打算掌握一門程式語言,對語言學讀者而言,Python是比較友好的高級程式語言,它的語法簡單,容易掌握,但是功能特別豐富!從1+1的數字運算,到當下最火的機器學習,Python都能承擔。如果你非常側重語言統計,也許有些教師也會用R語言、SPSS等。

相比而言,R的自由度比SPSS高,命令行界面,可能需要編程和數據結構基礎;但SPSS是圖形界面,操作簡單。

對於Python語言的學習,我們之前推送過北京理工大學的系列課程,適合初學者掌握。

入門專題 | Python語言系列MOOC


從基礎語言到相關應用,一應俱全。

四、入門之後如何進階?


可能有些讀者追求卓越,這非常勵志。


此時,你需要一些相關學科的基礎,具體來講就是語言學基礎(或其他應用領域),數學基礎,英語基礎,實踐基礎,趕潮流的基礎。

語言學基礎(或其他應用領域)。你要解決語言學問題(或其他應用領域),就要語言學(或其他應用領域)的基礎,不然找不到題目展示你無與倫比才華的舞臺。

數學基礎。無論是最新的各種神經網絡算法,還是入門級的因馬爾科夫模型,都需要數學來幫助理解,只是程度要求不同。一般來講,微積分、概率統計、線性代數最好掌握一些。

英語基礎。因為漢語世界不太容易產生新的理論、算法和技術,所以最新的前言研究大多用外語,特別是英語寫就。如果你想了解前沿,掌握英語顯得很必要。

實踐基礎。簡單說,就是多動手練習。雖然現在很多應用,大多都是站在別人的肩膀上,不自己從頭開始造輪子。但還是建議多練練,理解和應用起來才得心應手,萬一能改進下呢。

趕潮流的基礎。眾所周知,當下新理論、新算法、新技術層出不窮,日新月異。上個世紀還是基於規則的方法佔主流,而現在早已是基於統計的天下,或者規則與統計結合的方法,但更側重統計。所以要應時而動,及時趕趕潮流,結合一下3D、VR什麼的,蹭蹭熱點啥的。

一般來講,進階要找到自己感興趣的方向,然後自己深入下去。方向不同,路徑各異,很難有通用的。

如何做到,往下看 ↓ 。

五、聽說最近機器學習有一統天下之勢,有哪些書籍可以推薦?


在這方面漢語世界有兩本比較經典:

1.統計學習方法,李航,清華大學出版社,2012
這本書將精華濃縮,可能不太容易理解。

2.機器學習,周志華,清華大學出版社,2016
最新寶書,經典教材請認真閱讀。

同時也可以去edx,coursera上學習在線課程,有很多頂級院校、頂級大牛的課程,此處作者有些懶~

【院校篇


六、有哪些院系招收計算語言學碩博士生呢?


很多讀者都非常關心這個問題,多次詢問。


國內招收計算語言學的學校非常少很多都是在計算機學科下招生。據我所知的文科院系如下(可能有疏漏,僅供參考),大多同時招收碩博士,請到具體的網站查詢。

北京大學中文系,清華大學中文系,北京師範大學漢語文化學院,北京語言大學信息科學學院,中國傳媒大學文學院,南京師範大學文學院,江蘇師範大學語言科學與藝術學院……

國外的項目相比而言會多一些,之前我們推送了美國前20的計算語言學項目,大多同時招收碩博士,可參看。

The 20 Best Computational Linguistics Graduate Programs in U.S.

美國的計算語言學同樣是有的在語言學系,比如史丹福大學、麻省理工學院,也有一些在計算機系。

七、計算語言學培養方案的有什麼問題嗎?

有的。一個問題就是在語言學系的學生要學一些看似沒有用、或許以後也不會用的理論語言學的內容。不可以不學,因為它們很可能是必修課。

八、計算語言學如何追蹤前沿研究?


非常好的問題,對於這個問題,劉知遠有篇文章介紹,請認真閱讀。

初學者如何查閱自然語言處理(NLP)領域學術資料,

http://blog.sina.com.cn/s/blog_574a437f01019poo.html

撮要如下:

1.關注兩個組織,ACL和CCL,分別是國際語言學學會(https://aclweb.org,有wiki https://aclweb.org/aclwiki,有期刊Computational Linguistics、Transactions of ACL)和中國計算語言學學會(http://cips-cl.org).

2.關注一個博客,美國Hal Daumé III維護了一個natural language processing的博客(http://nlpers.blogspot.com),經常評論最新學術動態。

3.善用搜尋引擎,包括學術搜尋引擎、通用搜尋引擎。

【其他篇


九、純語言學學生能學計算語言學嗎?


可以,只要你願意努力一下下。


而且,浸淫久了,就會發現很多東西換湯不換藥,換藥不換湯,太陽底下並沒有多少新鮮事。

十、語言學學生學計算語言學和NLP競爭有優勢嗎?


看你學得怎樣。普遍情況是沒有。

十一、語言學學生學習計算語言學有什麼好處嗎?


有。掌握一種有關計算的新方法,用量化的方式認識世界。


相比而言,此領域起步較晚,文獻資料有限,不必像理論語言學那樣需要大量而深入的閱讀和基礎。


提升自己自主解決學術和生活中問題的能力。

十二、我還能問其他相關不相關的問題嗎?


可以,請留言。但我們會選擇簡單的回答~

作者:張逸宸
連結:https://zhuanlan.zhihu.com/p/29297801

來源:知乎
版權:文章已獲原作者原創聲明授權,轉載請聯繫原作者。

圖片:資料圖來源於網絡

相關焦點

  • 計算語言學漫遊指南 | 語言學午餐
    上個月,《你好,機器作詩了解一下》這篇文章發布之後,許多讀者留言說希望小編能更全面地介紹下計算語言學的研究內容、相關讀物和轉專業留學申請等信息。於是,午餐君今天就為大家帶來一份乾貨滿滿的計算語言學漫遊指南!
  • 計算語言學與深度學習
    他還表示:「理智地看,我認為自然語言處理非常迷人,讓我們得以集中研究高度結構化的推理問題,研究那些通向『什麼是思想』的核心又還具有重要實際意義的課題,以及研究無疑會讓世界變成更美好地方的技術。」這應當是不錯的前景。那麼計算語言學者們還要害怕深度學習麼?我認為並不需要。
  • 當前計算語言學發展的幾個特點
    隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的處理成為計算語言學研究的主要戰略目標,基於語言大數據的經驗主義方法在計算語言學中獨佔鰲頭。理性主義方法的一個重要弱點表現在實踐方面。這樣,在計算語言學研究中就出現了應對大規模真實文本的問題。當前語料庫的建設和語料庫語言學的崛起,正是計算語言學戰略目標轉移的一個重要標誌。隨著人們對大規模真實文本處理的日益關注,越來越多的學者認識到,基於語料庫的分析方法(即經驗主義的方法)至少是對基於規則的分析方法(即理性主義的方法)的一個重要補充。
  • 計算語言學院校信息大匯總!丨語言學午餐
    之前也有不少讀者朋友們留言,說希望午餐君可以介紹下計算語言學方面的院校。正值保研準備期和留學申請季,那麼本期《語言學周刊》,我們就來介紹介紹計算語言學方面的院校信息!我們先來看看世界各地有那些著名的計算語言學研究組和實驗室。它們歷史悠久,對計算語言學領域發展貢獻巨大,擁有著最知名的學者們。了解這些實驗室,無論是對於未來升學的選擇,還是對熟悉學界分布,都大有裨益。
  • 馮志偉談計算語言學
    由於計算語言學的研究對象是自然語言,因此,語言學家把它算為語言學的一個分支;由於計算語言學採用先進的計算機科學技術來研究和處理自然語言,因此,計算機科學家把它算為計算機科學的一個分支;由於計算語言學要研究自然語言的形式結構和自然語言處理的算法,因此,數學家把它算為應用數學的一個分支。這種情況說明,計算語言學不是一門單純的學科,而是一門交叉學科,具有明顯的跨學科特點。
  • 計算社會語言學:是啥?咋搞?
    在這一部分,我們將反映計算語言學領域面臨的挑戰。在某種程度上,這些挑戰與這樣一個事實有關,即在整個語言技術領域,社會科學研究的方法通常不受重視,因此也不被教授。對那些即使被理解和接受的容易採用的方法,人們也很不熟悉。但是,在學習分析等相關領域已經出現了一些有希望的搭建溝通的例子。
  • 計算語言學相關資料
    發展歷程通過這個定義,我們可以看出計算語言學是計算機科學、語言學等不同領域而又彼此交叉的學科。馮志偉於2011年在《外國語》第34卷第1期上發表了《計算語言學的歷史回顧與現狀分析》,簡要地介紹了計算語言學的發展歷程,從20世紀40年代到50年代末的萌芽,其中頗為有名的是1936年Turing給「可計算性」下的嚴格的數學定義,並提出了「圖靈機」[2](Turing Machine)的數學模型。
  • 計算語言學前景廣闊
    計算語言學是用計算機研究和處理自然語言的一門新興交叉學科。在近年推進新文科建設的背景下,計算語言學及其相關應用日益引起關注。計算語言學領域相關學者在接受本報記者採訪時表示,計算語言學方興未艾,應用廣泛,前景廣闊。
  • ——《計算語言學方法研究》成果選介
    這兩種方法實際上並不是完全對立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結合起來,取長補短,相得益彰。本項目如果把基於規則的方法和基於統計的方法分割開來研究,很多問題將會糾纏不清,不便於論述。因此,本項目不採取這樣的論述方式。  本項目採取按照語言學學科分類的方式,從語音、詞彙、形態、句法、語義、語用研究中使用的計算語言學方法來加以論述。
  • 計算語言學,iBrandUp人物
    點擊播放 GIF 0.0M- 這篇專訪將聚焦於計算語言學-△ 陳佳媛關鍵詞計算語言學、語言哲學、計算美學、AI設計●佳媛:我從小因為各種原因很少和同齡人一起玩耍,日常不斷在當年父母德國讀博背回來的電腦上折騰,即使是搜尋引擎也能玩一整天,把所有的聯想詞條一個個看、記,慢慢地就形成了一個奇妙的知識網絡。
  • 計算語言學研究所:支流的風景一樣好
    在北大理科一號樓四層的一個走廊裡,「計算語言學研究所」的牌子安靜地掛著。徑直往裡走,便能看到辦公室裡學者們忙碌的身影。雖然隸屬於號稱「北大第一大院」的信息科學技術學院,但計算語言學研究所卻鮮為人知,「計算語言學」這個學科也被冠以「冷門」的名號。
  • 第十七屆中國計算語言學大會聚焦自然語言的處理
    中新社長沙10月21日電 (王昊昊 楊嘉儀)10月19日至21日,第十七屆中國計算語言學大會暨第六屆基於自然標註大數據的自然語言處理國際學術研討會在長沙理工大學召開,來自清華大學、北京大學、百度、搜狗等單位的逾800名計算語言學研究者和相關專家學者參會。
  • 計算語言學研究70年(一)
    第十三章 計算語言學研究70年第一節 引言計算語言學是利用計算機技術,從計算的角度出發,尋找自然語言的規律,以使得計算機系統能夠像人類那樣理解和生成自然語言的研究。計算語言學是一門交叉學科,它涉及語言學、數學以及計算機科學等。在計算機領域,被稱為自然語言處理。當處理的對象為中文時,稱中文信息處理。1950年提出的圖靈測試一般被認為是自然語言處理思想的發端。
  • 【學科】大哉,計算語言學之為用
    60多年來,這項研究取得長足進展,成為現代語言學中一門重要的新興學科——「計算語言學」(Computational Linguistics,簡稱CL)。這門學科也屬於計算機科學的一個分支,叫做「自然語言處理」(Natural Language Processing,簡稱NLP)。
  • CCL 2016| 中科院張鈸院士:後深度學習時代的計算語言學
    (CCL2016)與第四屆基於自然標註大數據的自然語言處理國際學術研討會(NLP-NABD2016)同時在魯東大學召開。先簡單介紹下兩個會議的背景——CCL(全國計算語言學學術會議)從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,著重於中國境內各類語言的計算處理,為研討和傳播計算語言學最新的學術和技術成果提供了高水平的交流平臺
  • 第二十屆中國計算語言學大會(CCL 2021) 徵稿啟事
    「第二十屆中國計算語言學大會」(The Twentieth China National Conference on Computational Linguistics, CCL 2021)將於2021年8月13-15日在呼和浩特市舉行,會議由內蒙古大學承辦。中國計算語言學大會創辦於1991年,由中國中文信息學會計算語言學專業委員會負責組織。
  • 華人計算語言學博士發明具人工智慧搜尋引擎
    華聲報訊:據英國廣播公司報導,華人計算語言學博士喬鴻亮發明了第三代搜尋引擎lexxe,其特徵是「語言計算」(linguistic computing)。  「語言計算」的優勢是具備人工智慧,能識別不同類型語句,進行語法分析,判斷用戶意圖,從而提供類似百科全書的直接有效答案。
  • 會議 | 第十九屆中國計算語言學大會(CCL 2020)
    第十九屆中國計算語言學大會」(The Nineteenth
  • 計算語言學最前沿研究都在這裡了
    新智元報導 來源:acl2018.org編輯:聞菲、小芹【新智元導讀】ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2018將於7月15日至20日在澳大利亞墨爾本舉行。
  • 社會語言學,「不正經的」語言學
    寫在前面個人觀點,話糙理糙,一吐為快,匿名保命,不喜勿噴。語言作為一種社會現象,隨著社會的發展而發展,片刻也不能脫離人而存在。