清華大學劉知遠:自然語言理解到底難在哪兒?

2020-12-25 和訊科技

  新智元推薦  來源:知乎 NLP日知錄作者:劉知遠【新智元導讀】自然語言處理(NLP)是人工智慧中非常重要的子領域,但同時也是最難的子領域之一。清華大學計算機科學與技術系劉知遠助理教授最近發表了關於NLP的文章,對於我們深入、全面了解NLP非常有幫助。現在戳右邊連結上新智元小程序  了解更多!

  在微博和知乎上關注自然語言處理(NLP)技術的朋友,應該都對#NLP太難了#、#自然語言理解太難了#兩個話題標籤不陌生,其下匯集了各種不僅難煞計算機、甚至讓人也發懵的費解句子或歧義引起的笑話。然而,這些例子只是讓人直覺計算機理解人類語言太難了,NLP到底難在哪裡,還缺少通俗易懂的介紹。最近剛做完會議投稿,這裡花些時間總結下我對這個問題的認識,期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議,未來爭取不斷更新。

  此小號非彼小號

  自然語言理解本質是結構預測

  要搞清楚自然語言理解難在哪兒,先看自然語言理解任務的本質是什麼。作為人工智慧關注的三大信息類型(語音、視覺、語言)之一,自然語言文本是典型的無結構數據,由語言符號(如漢字)序列構成。要實現對自然語言的表意的理解,需要建立對該無結構文本背後的語義結構的預測。因此,自然語言理解的眾多任務,包括並不限於中文分詞、詞性標註、命名實體識別、共指消解、句法分析、語義角色標註等,都是在對文本序列背後特定語義結構進行預測。例如,中文分詞就是在原本沒有空格分隔的句子中增加空格或其他標識,將句子中每個詞的邊界標記出來,相當於添加了某些結構化語義信息到這個文本序列上。

  NLP典型任務:詞性標註、命名實體識別、共指消解、句法分析 [1]

  面向不同NLP任務,人們制定不同的待預測的語義結構空間:文本分類是最簡單的情形,即預定義的類別體系,最常見的如情感分類是postive、neutral、negative三類;中文分詞是詞邊界的標記;詞性標註是句子中每個詞的詞性標籤(如名詞、動詞、形容詞、副詞、連詞、介詞等);命名實體識別是標記哪些詞(或多詞)是實體名及其實體類型(如人名、地名、機構名等);共指消解是標記哪些詞在做指代以及指代的是前面出現的哪個概念或實體;句法分析則是將句子背後的句法樹結構或依存結構預測出來。

  自然語言理解的關鍵是語義表示

  不過,以上NLP任務都只是在不斷「逼近」對文本的理解,是對文本語義的局部表示。要實現對文本的完整理解,需要建立更完備的語義結構表示空間,這種更完備的語義表示經常成為上述NLP任務進行結構預測的依據。

  在統計學習時代,一般採用符號表示(Symbol-based Representation)方案,即每個詞都看做互相獨立的符號。例如,詞袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中詞的出現順序信息,廣泛用於文本分類、信息檢索等任務。N-Gram也是基於符號表示的語言模型,與BOW模型相比,將句子中詞的出現順序考慮了進來,曾在機器翻譯、文本生成、信息檢索等任務中廣泛使用。

  到深度學習時代,一般採用分布式表示(Distributed Representation或Embeddings)方案,每個語言單元(包括但不限於字、詞、短語、句子、文檔)都用一個低維稠密向量來表示它們的語義信息。分布式表示是深度學習和神經網絡的關鍵技術。分布式表示方案是受到了人腦神經機制的啟發,基本思想是[2]:

  Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities.

  很大程度上,這種表示方案與索緒爾對語言符號的任意性和結構主義的觀點不謀而合。從計算角度來看,NLP很多應用任務就是在判定兩個語言單元間的語義相似度,如信息檢索是在短語(查詢詞)和文檔之間,文檔摘要是在句子和文檔之間,分布式表示也為在不同語言單元之間計算語義相似度提供了統一的語義表示基礎。

  由於忽略了對詞語內部語義或詞序信息的考量,基於符號表示的詞袋模型或N-Gram失之粗略,也受到數據稀疏問題的影響;基於分布式表示的深度學習雖然極大提升NLP性能,卻更多只能作為NLP內部表示,可解釋性不夠。實際上,也有很多學者提出Semantic Parsing任務,探索各類對文本語義更完整的表示和建模方案,仍未得到令人滿意的結果。

  總之,自然語言理解任務的本質是結構預測,關鍵則是對語言單元的語義表示能力。那麼,自然語言理解為什麼難呢,這需要我們先看一下,自然語言都有哪些特點。

  自然語言有哪些特點

  自然語言是人類在認識世界和改造世界的過程中產生的,歸根到底是自然界的產物,因此被稱為自然語言。自然語言本身受到人腦語言能力的支配,伴隨著人類社會而演化,作為人類使用的最龐雜的符號系統,有很多特點。

  創新性

  作為人類信息交流的工具,自然語言需要具有強大的創新活力,隨時引入對最新概念、表述和意義的表達能力。這方面最常見的就是新詞以及舊詞新意的出現。例如,有個笑話就是母女二人對「潮」和「曬」產生的不同理解,女兒本意是讓母親幫忙在太陽下曬發潮的被子;而母親卻理解為在朋友圈「曬」女兒的被子讓大家看是不是很「潮」。可見,這位母親大人本人還是很「潮」的,熟練掌握了兩個詞的的最新意思。

  潮和曬

  人類語言的創新活力伴隨著網際網路發展和在線交流的日益密切而更加明顯。北京大學邵燕君等學者主編的《破壁書》應該是近年這方面的集大成之作,有興趣的讀者可以讀下。我理解,這個書名「破壁書」,也算化用《三體》「破壁人」的一個新詞。

  解碼二次元新詞的《破壁書》

  新詞和舊詞新意等都擴展了人類語言的表意空間,也擴展了自然語言理解進行結構預測的語義空間。而這種擴展,帶有較強的隨意性,缺少嚴格的描述信息或足夠的數據支持,從而為自然語言理解帶來挑戰。

  遞歸性

  以語言學巨擘喬姆斯基為代表的學者認為,遞歸性(recursion)是人類語言的最重要的特性[4],這也是喬姆斯基提出轉換生成文法的內在動機。雖然,遞歸性是否為人腦先天具備的語言能力有很多爭論,至少從漢語英語兩大語言來看,語言表現出的遞歸性特點不言而喻。

  例如最近中美之間出現的這則有意思的表述,就集中反映了語言遞歸性:S1=」美國幹涉中國內政「是一個擁有完整主謂賓結構的句子,被作為另外一個句子S2=」中國 抗議 x的法案「中」法案「的定語x;而S2又被作為了S3=」美國 抗議 y 是在幹涉內政「中」抗議「的賓語y。

  遞歸性帶來的語言套娃現象-1: 抗議

  遞歸性帶來的語言套娃現象-2:金氏世界紀錄

  正是這種遞歸性,為語言帶來精準而強大的表述信息和思想的能力,隨便翻翻那些著名的哲學著作,充滿著帶有複雜遞歸結構的長句。不過,這種精確表達能力是以理解更加費力為代價的,而且遞歸性也為一句話帶來更多的語義理解的可能性,例如」咬死獵人的狗「,到底是咬死了獵人,還是咬死了狗,至少有兩種可能的理解。

  也可以看到,一旦句子包含了多層嵌套,對人而言理解起來就變得十分困難,很少有人會用這麼複雜的結構說話。例如,政府部門層層轉發通知導致的」通知的通知的通知「的標題,讀起來就非常費力。所以,在自然語言理解實踐中,單純由於遞歸性造成的困難並不是那麼大。

  紅頭文件的語言套娃現象

  多義性

  自然語言是一個信息傳遞系統,需要兼顧信號發出者(說話人、作者)和信號接收者(聽話人、讀者)的效率。如果人類大腦中每個事物都要對應一個獨一無二的字詞符號,無疑會大幅提高人們的學習、記憶和使用語言的成本。因此,語言中存在大量同音字和一詞多義的現象,即一個字或詞往往兼顧多個詞義,當然,也對應地需要人們根據話語或文本的語境進行消歧處理,才能正確理解其語義。這種多義性,也成為各類語言幽默的主要來源。

  自然語言有不同粒度的語言單元,如字、詞、短語、句子、語篇,乃至文檔互聯形成的全球資訊網。多義性普遍存在於各粒度的語言單元上。例如,上面例子中的」潮「和」曬「兩字就有兩種意思,」小號「則是典型的一詞多義,短語層面如」metal fan「也至少有兩個意思。

  Metal Fan

  句子層面的多義性也不少見,如」能穿多少穿多少「,在夏天和冬天各有截然相反的意思。類似形式的語言笑話還不少:

  單身的原因有兩個,一是誰都看不上,二是誰都看不上。

  女孩給男朋友打電話:如果你到了,我還沒到,你就等著吧;如果我到了,你還沒到,你就等著吧。

  單身的原因:原來是喜歡一個人,現在是喜歡一個人。

  字面意思的」我想開了「

  自然語言作為人們日常交流的主要方式,相信每個人都有在交流中出現誤會鬧出笑話甚至衝突的經歷,很多時候就是由於歧義造成雙方理解產生誤差導致的。

  」你好不好意思啊「還是」你好,不好意思啊「

  主觀性

  即使語言的多義性得到了正確消歧,語言的字面意思得到了準確理解,同樣的話語或文本,仍然會導致人們產生不同的理解,引發不同的思緒。這是因為,每個人都是在認識世界和與外界交互的具體過程中習得語言的,所以人們對語言的理解不可避免受到個人經歷和認知水平的影響,帶有強烈的主觀性。

  這種主觀性反映在很多方面,以作者與讀者間的理解差異為例,常說」一千個讀者就有一千個哈姆雷特「,莎士比亞在寫這個劇本時,他心目中恐怕有一個確切的哈姆雷特形象以及他希望表達的思想;但讀者在閱讀時,則不可避免會受到自身經歷和認知的影響,而產生不同的理解。這有如一個正態分布,也許作者要傳遞的信息就在均值附近,而讀者的理解則會各有偏差。這也是為什麼,同樣一部世界名著,有的人就會引起共鳴,有的人覺得索然無味。

  中文世界也常說,言有盡而意無窮,特別是在詩歌中,往往寥寥數字,作者也許本意有限,而不同讀者會產生不同層次的解讀。這也是為什麼。再如下面融合多種元素的詩歌:無人機系荔枝來,字面意思正如圖所畫,而讀者如果了解杜牧原詩以及廣東人容易將ZHI、SHI發音為JI、XI的特點,則更能會心一笑。

  在人們日常對話交流中,這種主觀性比比皆是。例如,同樣是說」今天好冷啊」,字面意思沒有任何難解之處,但如果是女朋友剛進屋說的,那就得趕緊打開空調;如果是宿舍同學說的,恐怕就要嘲笑他為啥穿這麼少了。所以,戀愛關係、外交辭令、商務談判都是需要清醒洞悉對方「言外之意」的危險地區呀。

  這都是什麼意思?

  心理語言學等領域的很多研究表明,人的心理狀態(如性格等)會反映在語言表達的蛛絲馬跡中。對此有興趣可以閱讀美國學者James Pennebaker的相關成果,他甚至構建了一個詞典Linguistic Inquiry and Word Count(LIWC)嘗試建立人們使用詞語與心理狀態的對應關係 [5]。

  社會性

  人類是社會動物,社會性既是人類的特性,也深刻反映在人類語言中。語言並非固定不變,而是經歷了漫長演化。人類的集體生產和生活,對信息交流和記錄產生的需求,不斷改造著人類語言。全世界的人類早期聚居於不同大洲和地區,互相隔絕,各自的社會形態和生活特點,深刻地影響了不同語言的產生和演化,產生了現在形態各異的人類語言,例如英語等是典型的拼音語言,而漢語則是音義兼顧語言的代表。現代語言學也是從研究總結不同語言體系的特點而發展起來的。作為語言學的分支,演化語言學就在研究人類語言在發音、字形、詞法、句法等多個方面的演化過程,而社會語言學則重在研究社會形態與人類語言之間的互相影響的規律。

  語言系統受到社會發展的塑造。隨著網際網路和行動裝置的廣泛應用,人類之間的交流和聯繫,比以往任何一個時代都更加緊密,這也反映在人類語言的高速演化,新詞和舊詞新意層出不窮。不同學科的高速發展,也為語言注入大量專業術語。使用不同語言的人們緊密聯繫,也為語言引入大量音譯等形式的外來詞。

  語言使用也深刻反映社會形態。人們在不同的社交場合會切換不同的語言風格,如在做公開報告時和在朋友聚會時,語言風格明顯不同,莊諧相異。在社交場合,人們也會將有些讓人恐懼厭惡或者不雅晦氣的概念作為禁忌或避諱詞語,進而使用委婉曲折的說法,例如大便改叫出恭或解手,死亡改叫作古歸西或見馬克思等,中外皆同。

  社會語言學還有一個有趣的話題,是探究語言使用與社會地位之間的關係,曾提出語言協調理論(Language coordination),即不同社會地位的人在相互交流時,地位低的人會從語言風格上適應地位高的人,而地位高的人則不會主動調整自己的語言風格適應別人,這個理論在2012年得到了定量驗證 [6]。

  最近的定量研究也表明,大規模文本中含有人類社會存在的刻板印象、政治偏見等問題,側面反映了人類社會對語言的影響 [7]。美國著名認知語言學家萊考夫甚至認為,不同黨派的政治家甚至會通過語言使用來影響政治議題的設置 [8]。

  自然語言理解難在哪

  正是由於其創造性、遞歸性、多義性、主觀性和社會性等特點,既讓人類語言具備強大的表達力和生命力,同時呈現出非常複雜而難以捉摸的圖景。單從讓計算機理解人類語言的角度來考慮,問題難點也許可以歸結為如下幾個方面。

  結構語義表示空間構建

  很多學者通過世界、心智和語言的三角形來表述語言的地位,這在索緒爾提出的能指和所指的概念中已初見端倪,哲學中的認識論和語言哲學也是探討這三者的關係。自然語言理解還沒有能力考慮哲學關心的這些問題,不過也能看出,語言作為人類認識世界的產物和工具,必然不是對客觀世界的簡單映射,而帶有人類主觀認識的色彩,也受到人腦機能的影響和約束。

  各種語義三角

  讓計算機理解人類語言,需要建構結構化的語義表示空間,只有這個空間的語義表示能力能夠與人類心智相媲美,才有可能將人類通過語言要表達的意義進行完美表示和解讀。同時,這個語義表示空間還要接受客觀世界的校正,消除人類認知中存在的偏見和缺陷,讓人工智慧更好地服務人類社會。

  現在的語義表示方案中,符號表示過於粗略,無法考慮語言符號背後反映的豐富語義信息;而分布式表示雖然具有更強大的表示能力和自由度,但目前只能通過特定任務下的數據學習,只能建立滿足特定需求的語義表示,一方面缺少可解釋性,魯棒性差,另一方面通用性和遷移性不足。這些與人腦展現的語義表示能力相比,還有千裡之遙。

  未來,需要探索更強大的結構化語義表示空間。例如,是否可以將分布式表示與符號表示相結合,既保留分布式表示的泛化能力,又兼顧模塊化和層次化符號表示帶來的抽象能力。也許這是下一輪自然語言理解取得革命進展的突破口之一。

  我們課題組正在致力於構建和利用各類型知識圖譜的研究,也算是在這個方向上的努力。通過構建常識知識、語言知識、世界知識、認知知識、領域知識等各類型知識圖譜,希望建立起更強大的結構化語義表示空間。

  不同類型知識是理解人類語言的鑰匙

  多模態複雜語境的理解

  人類並非孤立地使用語言,語言使用需要考慮其複雜的語境。以語言的多義性為例,存在多義的語言單元,總需要其外部的複雜語境信息進行消歧:字的多義性至少需要所組成的詞來消歧;詞的歧義性至少需要所在的句子來消歧;句子的意思至少要放在語篇或對話語境中,甚至需要複雜的世界知識來幫助理解。

  語言單元的多義性需要其外部複雜語境信息進行消歧

  這種語境往往是開放的,也是多模態的,如上下文句子的文本信號、對話者的語氣等語音信號、所處環境的視覺信號、甚至其他無法名狀的各類信息。實際上,很多歧義產生的笑話,在實際語境下並不會讓人產生錯誤理解。例如下圖」三餐二樓歡迎新老師生前來就餐「,雖然從句意上有」歡迎 新老師 生前 來 就餐「這種理解的可能性,但在這個場景下其實不可能是這個意思。

  三餐二樓歡迎新老師生前來就餐

  再如」無線電法國別研究「,雖然從句意上有」無線電 法國 別研究「這種理解的可能性,但作為一本專著的書名,只可能是」無線電法 國別 研究「這種理解。

  無線電法國別研究

  只是對於計算機而言,如何有效理解語言所處的開放複雜語境,從而實現對語言語義的準確理解,仍是挑戰性難題。這既與尚未建立有效的結構語義表示空間有關,也與計算機還不能像人那樣進行跨模態的高效學習和理解有關。如何有效識別語言理解所需的語境信息,並建立跨模態多通道的建模,依然任重道遠。

  小結

  這裡總結了我對自然語言理解到底難在哪兒的看法。自然語言理解作為人工智慧的核心問題,正引起越來越多研究者的興趣,在各類任務上努力探索,自然語言處理最重要的國際學術年會ACL 2020共有3000多篇投稿,受關注程度可見一斑。

  自然語言理解大致有不同的層次,我總結研究路徑可以大致為:字斟句酌,實現句級消歧和精準理解;瞻前顧後,初步實現文本內的複雜語境建模,建立篇章或對話理解;博學多識,引入更多外部知識,實現跨模態更複雜語境的理解;善解人意,考慮語言的社會性和主觀性因素,實現更有」人性「的自然語言理解;冥思苦想,將語言作為思想工具,實現從語言理解到語言使用的跨越,實現創作和規劃的能力。

  語言是人類文明的象徵,是人類智能的集中體現,因此得到非常多學科從不同角度的思考和關注,如語言學中對句法、語義等問題建立的理論,心理語言學對人類語言習得的探討,語言哲學對語言與世界關係的探討,認知語言學對隱喻和範疇等問題的探討,神經語言學對人腦的語言功能的研究,漢語言學界對於漢語流水句、」王冕七歲上死了父親「等語言現象的研究,等等。這些,都對人類語言不同側面的特點進行了卓有成效的考察。

  自然語言理解的目標是讓計算機掌握人類語言能力,需要充分了解和融合這些對人類語言的已有探索成果,以逼近人類語言的本質,才能更好地設計結構化語義表示空間,實現多模態複雜語境的理解,像人那樣智能地理解和使用語言。希望有朝一日,計算機也能讀懂#NLP太難了#、#自然語言理解太難了#兩個話題標籤下的那些話。

  自然語言理解也不會

  參考文獻[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.[3] 索緒爾[瑞士]. 普通語言學教程. 北京: 商務印書館, 1980.[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.[8] 喬治.萊考夫[美]. 別想那隻大象. 浙江人民出版社, 2013.

  原文連結:http://url.cn/51BfOsp

本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:何一華 HN110)

相關焦點

  • 清華大學劉知遠 | 自然語言理解(NLU)難在哪兒?
    ,其下匯集了各種不僅難煞計算機、甚至讓人也發懵的費解句子或歧義引起的笑話。然而,這些例子只是讓人直覺計算機理解人類語言太難了,NLP到底難在哪裡,還缺少通俗易懂的介紹。最近剛做完會議投稿,這裡花些時間總結下我對這個問題的認識,期望對那些感興趣NLP的同學有些幫助。歡迎批評意見和建議,未來爭取不斷更新。自然語言理解本質是結構預測要搞清楚自然語言理解難在哪兒,先看自然語言理解任務的本質是什麼。
  • 清華大學劉知遠:自然語言理解難在哪兒?
    01自然語言理解本質是結構預測要搞清楚自然語言理解難在哪兒
  • 劉知遠:知識指導的自然語言理解
    在2019年6月的集智-凱風複雜系統論壇中,劉知遠老師就知識指導的自然語言理解展開了一系列討論:先介紹了自然語言處理的基本概念,然後是以深度學習為代表的數據驅動的自然語言,再將知識引入到深度學習模型中,知識+數據雙向驅動的自然語言處理。本文內容源於劉知遠老師的講座內容,經授權發布。講座錄播時長21分鐘,地址見文末。
  • ...2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全英文)
    內容簡介 · · · · · ·《Representation Learning for Natural Language Processing(自然語言處理表示學習技術)》本書全面介紹了自然語言處理表示學習技術的理論
  • 資料| 2020年清華大學劉知遠新書《自然語言處理表示學習技術》(全...
    Processing(自然語言處理表示學習技術)》本書全面介紹了自然語言處理表示學習技術的理論、方法和應用,內容包括三大部分:第一部分介紹了單詞、短語、句子和文檔等不同粒度語言單元的表示學習技術;第二部分介紹了與自然語言密切相關的世界知識、語言知識、複雜網絡和跨模態數據的表示學習技術;第三部分整理了相關開放資源與工具,並探討了面向自然語言處理的表示學習技術面臨的重要挑戰和未來研究方向
  • 清華大學劉知遠:在 NLP 領域「做事」兼「發聲」
    ——魯迅《熱風》隨感錄 四十一雷鋒網(公眾號:雷鋒網) AI 科技評論按:對於清華大學計算機科學與技術系自然語言處理實驗室團隊而言,今年或許是一個頻頻「做事」兼「發聲」的季節。:目前常用的自然語言處理開源項目/開發包有哪些?
  • 推薦|知乎大V、清華劉知遠「自然語言處理訓練營」
    他是清華大學「貴系」的副教授 是讓人崇拜的
  • 2.18-2.21清華大學公開課課表請查收~
    為積極響應清華大學「延期開學、如期開課」的號召滿足廣大同學「在家也能上清華」的願望清華大學「宅家」雲學堂繼續發布閒話AI:自然語言理解難在哪兒?主講嘉賓:清華大學計算機系副教授 劉知遠開課時間:2月20日(周四)20:00-21:00課程介紹:人工智慧(AI)的一大夢想是讓計算機像人一樣理解和使用語言,但人類語言(又稱自然語言)則被認為是人類智能的集中體現。
  • 對話清華NLP實驗室劉知遠:NLP搞事情少不了知識庫與圖神經網絡
    在過去的 2018 年中,自然語言處理出現了很多令人激動的新想法與新工具。從概念觀點到實戰訓練,它們為 NLP 注入了新鮮的活力。 在這一年中,清華大學副教授劉知遠和他所在的清華自然語言處理實驗室同樣在這個領域做出了很多成果,他們關注如何結合深度神經網絡與大型知識庫,並期望構建更多魯棒及可解釋性的自然語言理解系統。
  • 劉知遠老師的「靈魂發問」:關係抽取到底在乎什麼?
    這是來自EMNLP20上清華大學劉知遠團隊的「靈魂發問」~關係抽取是每一位NLPer都很熟知的任務,特別是基於BERT的神經關係抽取模型已經登頂各大榜單SOTA,某些甚至直逼人類表現。但也許你和JayJay一樣,可能只是調個包、從不過問關係抽取的核心要素是啥吧~在劉知遠老師的EMNLP20論文《Learning from Context or Names?  An Empirical Study on Neural Relation Extraction》中,就「關係抽取到底在乎什麼」這一問題進行深入全面的探究,是難得的好文!
  • 清華劉知遠:寫給想要填報CS/AI志願的考生們
    但是報考AI專業該怎麼選、有什麼注意事項、去哪兒學呢?下面由清華大學計算機系自然語言處理實驗室副教授劉知遠為廣大考生答疑解惑。國內CS/AI方向又有很多新的變化,最明顯的是各大高校紛紛設立人工智慧學院,開始招收人工智慧專業本科生。最近又要開始新的一輪填報志願,我又來蹭個熱點,花了些時間整理出這篇短文,聊聊人工智慧是什麼、學什麼、怎麼學、以及去哪兒學的問題。
  • 專欄 | 清華大學劉知遠:在深度學習時代用HowNet搞事情
    在自然語言理解方面,HowNet 更貼近語言本質特點。自然語言中的詞彙是典型的符號信息,這些符號背後蘊藏豐富的語義信息。可以說,詞彙是最小的語言使用單位,卻不是最小的語義單位。HowNet 提出的義原標註體系,正是突破詞彙屏障,深入了解詞彙背后豐富語義信息的重要通道。在融入學習模型方面,HowNet 具有無可比擬的優勢。
  • 清華大學孫茂松:NLP 面臨的三大真實挑戰
    一方面,實現語言智能十分艱難。儘管機器人在電競、圍棋等方面頻頻超越人類,但目前的系統仍無法達到三、四歲孩童的語言和理解能力。 另一方面在於自然語言處理本身對實現智能的重要性。
  • 資源 | 清華劉知遠 CCL 2018研討會:NLP領域如何做好文獻綜述與研究選題
    在第十七屆中國計算語言學大會上,清華大學計算機系副教授、博士生導師劉知遠教授做了《文獻綜述與研究選題》的報告。
  • ACL 2020 清華大學 THUNLP 系列解讀
    清華大學自然語言處理實驗室(THUNLP)由孫茂松教授領導,主要從事中文信息處理、社會計算和知識圖譜研究,實驗室 「二劉老師」(劉洋、劉知遠)是我國NLP領域的青年代表,劉洋教授在機器翻譯領域造詣頗深,劉知遠副教授則聚焦語言理解與知識計算。ACL 2020 上,THUNLP實驗室有什麼新的研究進展?
  • 我們真的理解語言嗎?計算機如何理解自然語言?
    我們理解的並不是別人內心的真實想法很多人都以為人在用語言進行表達時內心會有一種真實的想法,所以我們理解語言就是要理解表達者所要表達的這種意思,比如說,讀《道德經》就是要理解老子當時到底是怎麼想的,他的這些話到底是什麼意思,但這個問題其實是個形上學問題,是個「前語言」問題,就跟我們相信有上帝一樣是一個永遠都達不到的目標。
  • 自然語言理解(Natural Language Understanding)
    自然語言理解(Natural Language Understanding,NLU)以語言學為基礎,融合邏輯學、心理學和計算機科學等學科,試圖解決以下問題:語言究竟是怎樣組織起來傳輸信息的?人又是怎樣從一連串的語言符號中獲取信息的?換種表達就是,通過語法、語義、語用的分析,獲取自然語言的語義表示。
  • 劉知遠:NLP研究入門之道(一)
    作者 劉知遠編輯 zenRRan地址 https://github.com/zibuyu/research_tao現在市面上有很多介紹自然語言處理技術的書,介紹深度學習技術的書由於自然語言是人類區別於其他動物的根本標誌。沒有語言,人類的思維也就無從談起,所以自然語言處理體現了人工智慧的最高任務與境界,也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。從研究內容來看,自然語言處理包括語法分析、語義分析、篇章理解等。從應用角度來看,自然語言處理具有廣泛的應用前景。
  • CPU、作業系統、編譯器全自主寫,劉知遠點讚
    簡歷主人是清華計算機系本科生周聿浩同學,他順利拿到直博名額,清華劉知遠老師也表示讚賞。  最近,一個來自福州的男生突然火了,原因是知乎上一個熱帖《清華大學計算機專業本科的這位同學是什麼水平?》:  https://www.zhihu.com/question/345718537  提問者說,他在微博上看到清華劉知遠教授的一條微博,對劉教授口中這個優秀同學產生了興趣:  我看到微博很多人都說很牛逼,連劉知遠老師都稱讚,但是我好像不怎麼能體會到(估計是我自身水平太低了),能有人做一個形象的比喻嗎?
  • 妙筆學術委員、清華大學副教授黃民烈:知識讓自然語言生成更可用
    11月22日下午,第四期NLG(自然語言生成)論壇特邀報告在北大科技園北領講堂如期舉行,清華大學計算機科學與技術系副教授、博士生導師、清華大學智能技術與系統實驗室副主任、妙筆智能研究院學術委員黃民烈老師接受論壇邀請,作了主題為《知識增強的自然語言生成》的特邀專題報告。