蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用

2020-11-23 雷鋒網

2018 中國人工智慧大會(CCAI 2018)於 7 月 28 日-29 日於深圳召開。「過去未去,未來已來」,李德毅院士在 CCAI 2018 開幕式上對人工智慧的發展寄予極高的期待,認為未來人工智慧必將給人類帶來全新的啟迪。

CAAI 副理事長、中國科學院院士譚鐵牛在開幕式致辭中同時強調,「理性、務實」是未來人工智慧的重要路線。他也希望中國人工智慧大會能給與會觀眾以充實的視聽盛宴與豐富的心得體會。

在 2018 中國人工智慧大會(CCAI 2018)首日下午的專題論壇上,蘇州大學特聘教授、國家傑出青年科學基金獲得者張民做了題為《自然語言處理方法與應用》的大會講座。在這場長達兩個小時的講座上,張民教授圍繞 AI、自然語言及 NLP,還有相應的方法、應用及展望,向與會觀眾分享了自然語言處理的相應研究。雷鋒網(公眾號:雷鋒網) AI 科技評論整理了張民教授的講座概要及部分精華內容,以饗讀者。

一、AI、自然語言和自然語言處理

從農業社會、工業社會到信息社會,從數據到信息、到知識到智能的演變,代表了人類社會的巨大進步,展現了人類對於不同概念的詮釋與理解的演變:

數據可以理解為人類對主觀/客觀世界事物的數量、屬性、位置及其相互關係的抽象表示;信息是具有時效性的、有一定含義的、有邏輯的、經過加工處理的、對決策有價值的數據流,也就是加工後有邏輯的數據。而信息的豐富性決定了我們需要將它抽取、凝練為知識;但擁有用知識去解決問題的能力,才真正叫做智能。從歷史的長河來看,人工智慧的產業成熟曲線及人類的認識體系,是在經歷「人類要毀滅」的恐慌(發現人工智慧的能力超出想像)與大呼「騙子」的頓悟(發現人工智慧的局限性)的反覆中循環提升的。在張民教授來看,這兩種極端的觀點都只能部分代表人工智慧的觀點和看法,不應以偏概全。

人工智慧的內涵和外延:

能夠講清楚什麼是人工智慧很重要。在張民教授的理解中,按照李德毅院士的觀點,人工智慧的外延包括機器人與智能系統。而內涵包括如下四個層面:

• 底層是腦認知基礎,上層是以知識工程為核心的知識建模、獲取和推理;

• 中間有兩個同樣重要的內容,一個是感知智能,即機器感知和模式識別;另一個是認知智能,也就是自然語言處理和理解。

人的進化與語言的關係

從感知、認知到進化,人為何能步入食物鏈的頂端?因為人類有語言,語言使人類區別於動物。語言的本質就是一套符號系統。從語言的種類來看,一個是動物語言,一個是人工語言,再者是自然語言。自然語言是人類最重要的工具,是人類進行溝通交流的各種表達符號。

那麼自然語言處理的定義是什麼?就是用計算機來處理人類的自然語言。

自然語言處理有三件重要的事:

1. 分析和理解;2. 生成和應用(互動過程);3. 動作(執行語言相對應的內容)。

為了更好地進行表示、推理和學習,自然語言處理涉及到了哪些方法?張民教授總結了如下內容:自然語言處理學科自身的算法和理論,規則方法,統計方法、機器學習方法及深度學習等多種方法。

機器能理解人類的自然語言嗎?

從廣義角度來說,真正的自然語言處理從 1950 年代的機器翻譯研究開始。但語言存在高度歧義、高度結構化的特性。為何自然語言處理的難度如此大?張民教授認為包括如下因素:

• 功能:語言是對世界的認識和理解;

• 知識:涉及到語言學知識、外部知識、領域知識甚至是常識等多種綜合知識。

• 特性:語言具備組合性、開放的、動態的、長期特性等多種特性。

• 語用性:張民教授著重強調了環境、上下文、信息、意圖等各種因素對於理解語言的重要性和複雜性。

二、自然語言處理的方法

與人工智慧一樣,張民教授也將自然語言處理劃分為外延和內涵兩個部分。外延指的是自然語言處理的應用(下一部分會重點說明);內涵則涵蓋三大內容,包括以自然語言分析(分析語言表達的結構和含義)、自然語言生成(從內部表示生成語言表達)和多語言處理等。

分詞

分詞的任務定義為:輸入一個句子,輸出一個詞語序列的過程。如將「嚴守一把手機關了。」輸出為「嚴守一/把/手機/關/了。」

目前的兩種主流方法包括基於離散特徵的 CRF 和 BILSTM-CRF。

挑戰包括交叉歧義、新詞識別、領域移植、多源異構數據融合及多粒度分詞等。

命名實體

現在的主流方法包括:

1. 規則系統

2. 基於機器學習的學習系統

目前的挑戰包括新領域舊實體類別識別、新實體類別識別等,解決辦法包括利用構詞知識、領域知識,使用強化學習、跨領域學習、半監督學習、眾包、遠程監督等機器學習方法。

句法分析

句法分析的任務定義為:輸入一個句子的詞語序列,輸出為句子結構表示的過程。依存句法分析輸出的是依存句法樹,下面以依存句法分析為例。

目前採用的方法包括:

• 基於圖的方法,即從圖中搜索得到句法樹,主要的任務在於確定每個依存弧的分值;

• 基於轉移的方法:即通過一系列移進規約的動作得到句法樹,主要任務在於基於當前狀態,確定每個動作的分值。

現在的主流做法是在上述兩者的基礎上加入深度學習的方法。

語義分析

定義是將文本轉換為可計算的知識表示。目前學術界語義表達方法包括:1)淺層語義分析;2)邏輯語義分析;3)抽象語義表示分析。

篇章分析

篇章的定義指的是一系列連續的語段或句子構成的語言整體單位,核心問題是篇章結構和篇章特徵,其所基於的語言學基本理論包括中心理論、脈絡理論、RST 等多種語言學基本理論。

• 基本結構分析

篇章結構指的是篇章內部關係的不同結構化表達形式,主要包括邏輯語言結構、指代結構、話題結構、功能結構、事件結構等範疇。

• 基本特徵的研究

包括連接性、連貫性、意圖、可接受性、信息性、情景性和跨篇章等七個基本特徵。

自然語言生成

張民教授總結了在基於規則、基於知識的檢索及基於深度學習等三種自然語言生成方法的優缺點對比及適用場景。

• 基於規則

它的一大優勢在於具體領域的能做到精準回答;但相應地,在可移植性及可擴展性上則存在不足;適用的場景以個人助理為主,和任務驅動型的對話。

• 基於知識的檢索

它的優點在於知識庫易於擴充,答案沒有語法錯誤;但對話連續性差,容易出現答非所問的情況;適用場景以問答系統、娛樂聊天為主。

• 基於深度學習

基於數據驅動的方法能夠省去顯示語言理解等過程,但需要大量語料支持;適用場景以虛擬影像、智能聊天機器人為主的有豐富領域語料的場景。

三、自然語言處理的應用

自然語言處理應用包括自然語言處理本身的直接應用和自然語言處理加行業的應用。直接應用包括,問答、對話、機器翻譯、自動文摘、機器寫作、閱讀理解、信息抽取、情感分析等;同時,自然語言處理在各個行業中都有越來越廣泛的應用,包括教育、醫療、司法、金融、旅遊、國防、公共安全、科技、廣告、文化、出版各行各業。

1. 情感和情緒分析

在業界研究和應用,情感一般包括正面、負面和中性,而情緒一般表現為喜、怒、哀、樂、驚、恐、思等。情緒和情感都是人對客觀事物所持的態度體驗,只是情緒更傾向於個體基本需求欲望上的態度體驗,而情感則更傾向於社會需求欲望上的態度體驗。情感和情緒分析包括問題驅動和模型驅動兩個方面,在工業界和學術界都已經有著廣泛的應用和研究。

2. 問答

智能問答主要有三方面的要求:一是理解人類語言的內涵;二是推敲知識獲取的意圖;三是挖掘精確貼切的知識。

相應地,問答系統需要解決三個問題:

1. 問題分類、分析和理解(一階邏輯、二階邏輯)

2. 答案的匹配、檢索

3. 答案生成

問答的四個難點及解決方法

1)多源異構大數據背景下開放域問答的瓶頸。在效率與覆蓋率的權衡下,數據大小與知識佔比的關係是每個研究者需要考慮的問題;而結構化數據與非結構化數據的混雜,導致知識挖掘與存儲存在相應的難點;此外,數據時效性的變化也給新舊知識的應用帶來了挑戰。

以往是用 IR 或 RC 的方法,但目前流行採用對檢索所得的多個段落排序,也就是在 IR 和 RC 中加入了排序的操作,進而進行面向多段落的提取/生成答案。

2)深度語義理解的問答技術。以 Watson 為代表的系統採用的是抽取與置信度計算的方法;目前則是閱讀理解抽取/生成式方法推動了技術發展。

3)知識庫與知識圖譜。以往的知識庫存在可靠性、包容性低,存在通用性不高的問題,目前研究者們更多考慮用當下熱門問題自動生成來實現知識圖譜的自動更新和擴展。

4)多模態場景下的問答。問題的對象往往潛藏於多媒體,且答案的判斷需要參考其它媒體的數據資源。目前出現了以語言處理 RNN 與圖像處理的 CNN 的有機結合方法,實現跨媒體的特徵共享、獨立和抗依賴。

對話

根據應用場景的不同,可分為開放域及封閉域對話系統。高準確率的上下文篇章建模、對話狀態轉移模型和領域知識建模是目前對話亟待解決的問題。

知識圖譜

包括知識建模、知識圖譜構建、知識融合、知識推理計算以及知識賦能等主要任務。知識圖譜構建是目前學術界和產業界研究熱點,包括實體及其屬性識別、事件抽取、實體事件關係抽取、概念實例化和規則學習等。

機器翻譯

機器翻譯目前已經取得較大進展,張民教授展望了未來機器翻譯可以從如下領域做發展:

知識建模和翻譯引擎,從詞序列到語義到知識,利用知識圖譜和各類知識(語言學知識、領域知識、常識知識等)進一步延伸機器翻譯的邊界;

研究新的翻譯模型,從廣度(篇章)和深度(深度理解)進一步推進機器翻譯的理解能力。此外,還需要適應產業化的需求和國家戰略需求。

四、AI 時代的自然語言處理

張民教授告訴雷鋒網 (公眾號:雷鋒網) AI 科技評論,目前的自然語言處理發展處於歷史上最好的時機。早在 90 年代,他們團隊就嘗試做過自然語言處理的商業化應用,但因為技術的局限性,最終並沒能將商業模型成功落地。「早起的鳥兒有蟲吃,但起得太早,天沒有亮就餓死了。」張民教授的切身體會讓他意識到,技術的進步,加上產業的需求和落地,讓自然語言處理到了今天才迎來了新的春天。

同樣地,張民教授在講座中也提到了自然語言處理於 AI 時代的三個基本問題,一個是表示;一個是搜索、推理,還有一個是學習。

• 從底層來看,包括 NLP 詞法、句法、語義到篇章的 NLP 基礎研究和核心技術;

• 從應用研究來看,包括情感分析、信息抽取、對話系統、閱讀理解、信息檢索、問答系統、知識圖譜、機器翻譯等;

• 從上層來看,則是相應的平臺、系統和應用。

以上這些也是張民教授團隊研究工作的重點。

張民教授對雷鋒網 AI 科技評論表示,從數據、信息到知識和智能,未來的學科邊界與知識智能結合會進一步融合,並在可解釋性、小數據、知識賦能等亟待解決和探討的問題上進一步延伸;與此同時,注重科學問題的凝練,定義學科研究規範和研究框架,重視產學研的結合與交融,這也是他寄予自然語言處理在 AI 時代這個「歷史上發展的最好時期」的期待。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 復旦大學黃萱菁:自然語言處理中的表示學習
    人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。「AI未來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作為合作自媒體。承辦單位為中國科學院大學學生會,協辦單位為中國科學院計算所研究生會、網絡中心研究生會、人工智慧學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。
  • 中國的自然語言處理領域的人工智慧公司
    原來,它應用了最新的人工智慧自然語言處理技術。什麼是自然語言處理?自然語言處理是工業界與學術界都關注的人工智慧領域,這一領域的突破性發展與深度學習算法的成熟有直接的關係。加拿大多倫多大學的辛頓是深度學習的先驅,他和學生於2006年發表在《科學》上的文章提出了降維與逐層預訓練的方法,這使得深度學習成為可能。
  • 2020語言AI學術論壇暨凡語AI研究院成立儀式在京圓滿落幕
    經過兩年多的高速發展,中科凡語依託中國科學院自動化研究所在人工智慧、自然語言處理和機器翻譯等方向積累的豐富的前沿理論成果、成熟的技術研發經驗和專業的行業解決方案,打造了先進的技術工具和成熟的算法模型,能夠為用戶提供專屬定製的「基於神經網絡及領域知識的機器混譯系統成套裝備」,以及最新的飛譯CAT平臺。
  • 對話UT Austin大學教授:未來5年自然語言處理最大的挑戰在哪裡?
    德克薩斯大學奧斯汀分校計算機系教授、人工智慧實驗室主任Raymond J. Mooney帶領他的人工智慧小組研究了多個領域,目前他的主要研究方向是自然語言處理和計算語言學。 香儂科技: 您有一些論文是關於將邏輯方法和分布語義相結合的(e.g.
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 國內自然語言處理(NLP)研究組
    哈爾濱工業大學智能技術與自然語言處理實驗室智能技術與自然語言處理實驗室insun.hit.edu.cn哈爾濱工業大學人類技術研究組Human Language Technology (粵ICP備17042021號 http://www.beian.miit.gov.cn/)www.hitsz-hlt.com哈爾濱工業大學智能計算研究中心智能計算研究中心icrc.hitsz.edu.cn
  • 重磅發布 | 牛津大學Deep NLP深度自然語言處理課程17年最新(漢化視頻)
    大數據文摘作品,轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程(Deep NLP)漢化視頻!大數據文摘視頻團隊在今年又獲得重磅資源,牛津大學深度學習與自然語言處理課程(Deep NLP)!大數據文摘已聯繫課程主講人取得翻譯授權,並聯合北京郵電大學模式識別實驗室組織了視頻漢化,免費發布。 所以大家可以看到中文字幕了!開不開心!
  • 自然語言處理的經驗主義和理性主義
    自然語言處理要研製表示語言能力(linguistic competence)和語言應用(linguistic performance)的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的評測技術。」
  • 最大熵方法及其在自然語言處理中的應用研究
    要想切實的減少人機交流過程中的阻礙,需要在編製程中加強計算機設備對於自然語言的多重性領會,可以領悟到自然語言本身所具有的思想意識。上述兩種階段,前一種被稱作是自然語言理解,後一種責備稱作為自然語言生成。自然語言的處理總體上包含著自然語言的領會以及語言意識生成兩種環節,在過去的幾年中,研究人員對於自然語言的研究頻率較為廣泛,但是自然語言的生成探索程度較為薄弱,此種情況正在隨著探究而發生轉變。
  • 閒談深度學習在自然語言處理領域的5大關鍵優勢
    在自然語言處理領域,深度學習將給予最大的幫助,深度學習方法主要依靠一下這五個關鍵優勢,閱讀本文將進一步了解自然語言處理的重要深度學習方法和應用。 在自然語言處理領域,深度學習的承諾是:給新模型帶來更好的性能,這些新模型可能需要更多數據,但不再需要那麼多的語言學專業知識。
  • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
    在本次國際自然語言處理與中文計算會議 (NLPCC 2020)上,  京東智聯雲舉辦了第一屆「多模態自然語言處理研討會」。該研討會邀請了多位學術大咖進行學術分享,吸引了自然語言處理、多模態、圖像處理等多領域眾多學者參與。會中,各位學者就跨語言跨模態信息處理、多模態預訓練、AI與藝術、視覺與語言交互、多模態對話系統等領域的研究熱點和技術應用展開討論,反響熱烈。
  • 自然語言處理深度學習的7個應用
    原文:7 Applications of Deep Learning for Natural Language Processing作者:Jason Brownlee翻譯:無阻我飛揚摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。自然語言處理領域正在從統計方法轉變為神經網絡方法。
  • 圖靈獎得主Clarke教授訪問中國科大蘇州研究院
    10月20日至27日,美國卡內基梅隆大學計算機系教授、中國科學院「愛因斯坦講席教授」、圖靈獎得主Edmund Clarke對中國科學技術大學蘇州研究院進行了為期8天的學術訪問與交流。  21日上午,Clarke教授為蘇州研究院的師生帶來了題為Model Checking and the Curse of Dimensionality的精彩報告。Clarke教授在演講中回顧了模型檢查理論技術的發展歷程,分析了在過去20多年裡面遇到的四個典型的難題,講解了科研人員如何解決這些難題並取得重大突破。
  • 科普自然語言處理
    它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。
  • 哈工大教授車萬翔:對話系統——「自然語言處理皇冠上的明珠」
    如果說自然語言處理可被譽為「人工智慧皇冠上的明珠」,那麼對話系統就是「自然語言處理皇冠上的明珠」。其中以蘋果SIRI、Google Assistant為代表的任務型對話系統尤為學術界和產業界所關注。然而,構建一個任務型對話系統依賴於大規模的標註數據,這為系統如何快速遷移到新的領域、新的語言和新的任務都帶來了極大的挑戰。
  • 自然語言處理 NLP 發展簡史
    語言的結構化20 世紀初,在瑞士的日內瓦大學,一位名叫費迪南德·德·索緒爾( Ferdinand de Saussure) 的語言學教授發明了一種將語言描述為「系統」的方法。以此為目標,喬姆斯基創建了一種語法,稱為「階段結構語法」,該語法能夠有條不紊地將自然語言句子翻譯為計算機可以使用的格式。1958 年夏天,同樣來自麻省理工學院的人工智慧研究先驅約翰·麥卡錫(John McCarthy)參與 IBM 資訊研究部的工作,研究符號運算及應用需求。
  • 北京外國語大學李莉文教授受邀來肥作專題學術講座
    與此同時,合肥市也正積極打造高層次對外交流合作平臺、國際化文化科技融合創新平臺和全國一流的應用型高水平人才培養基地。2020年10月29日上午,北京外國語大學教務處處長、教授、博士生導師李莉文來肥作題為《口語課堂中培養文化交際能力的行動研究》的學術講座,北京外國語大學原副校長閆國華、北外合肥國際學院副院長陳貴龍參與講座。
  • 多倫多大學在讀博士朱子寧:如何利用語言探針檢測深度神經模型性能...
    「NLP前沿講座」,是智東西公開課針對自然語言處理領域推出的一檔講座,聚焦於自然語言處理前沿領域研究成果與進展。我們將持續邀請研究者、專家與資深開發者,為大家帶來直播講解。語言模型編碼在神經模型中的評估越來越受到科研人員的關注。