...| 微軟首席 AI 科學家鄧力演講:口語對話系統的分類及三代演變

2020-12-05 雷鋒網

編者按:鄧力博士原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。

在上周的 AI Frontiers 會議上,鄧力博士為參會嘉賓做了口語對話系統的專題演講。雷鋒網與會記者將現場演講記錄下來,結合 PPT 為大家整理出這份演講實錄。此次鄧老師介紹了口語對話系統的分類,三代演變史,以及三大研究前沿領域,可謂乾貨滿滿。NLP 領域的童鞋們不可錯過。

鄧力:

今天,我想講一講口語對話系統(Spoken Dialogue System)。 「Spoken Dialogue System」 成為一個術語已經有 30 年了,現在我們也稱其為對話式交互界面(conversational UI),或者稱為「bots」。所以它有好幾個術語,但基本指的是同一件事。開發這類系統,需要能夠與人對話,要麼通過語音,要麼通過文字。這次我專門講語音,以及這兩類 bots 之間的根本性區別。

語音識別 vs 基於文字

語音識別技術在最近五年中飛速進步,這兩類對話系統之間的差距在縮小,這是一個很重要的信號。但在另一方面,許多情況下我們仍然有許多語音識別錯誤。在某種程度上,我們可以把對話系統看作:

對話系統=語音識別+基於文字(text-based,或翻譯為「語義理解」)的系統

語音識別向基於文字的對話系統,提供了一些低延遲的文字輸入。因此你可以把它們放在一起(認為它們對等),這是較傳統的觀點。

如今,你可以超出傳統觀點,來思考怎麼做出整合的系統設計。相比把這兩類系統一起放進管道(pipeline),你可以事實上做得更好。這就是整合學習(integrated learning)的概念。我會聚焦在這個方向。

語音提供了語言之外的信息(Para-linguistic cues),比如語氣、情緒。這在基於文字的對話系統裡是沒有的——後者沒有提供這些信息,或者說線索。從這個方面來說,兩個系統不是對等的。取決不同的用戶,語音輸入可能會比文字輸入更簡單——但也可能更複雜。對我個人而言,由於對語音比較了解,我傾向於使用語音來表述複雜事實,它的錯誤率未必會那麼高。語音使得我能更快地提供更多信息。但對於大多數人而言,當使用基於文字的對話,他們傾向於使用複雜句式。原因要麼是這樣做更快,要麼更可能的是,他們會擔心對方的語音識別能力,然後不想重複、或者說太多,尤其在噪聲大的環境下。取決於用戶的個人特質,這兩種情況都可能發生。我認為,隨著時間流逝,語音識別系統越來越成熟,語音和文字對話在這方面的差距會越來越小。

另一個很重要的方面是窄領域 vs 寬領域(narrow domain vs wide domain)。基於語音的對話傾向於聚焦在窄領域。但現在正變得不一樣,因為語音識別技術的進步。

幾個月前,Venturebeat 發表了一篇很不錯的文章「Introducing the Bots Landscape」,對口語對話系統作了概括(再次提醒,有些人稱其為 Bots,有時稱之為對話式交互界面),以及它們的業界現狀。

Bots 領域的景觀一覽

上欄:有吸引力的 Bots;左欄(由上至下):連接器/分享服務,發現 Bot ,分析;右欄(由上至下):AI 工具:NLP、ML、語音識別;Bot 開發者框架和工具,短訊

對話系統可被看作是一個連接器,來把你的技術與第三方相連。然後你有一系列開發框架和工具來實現這點。微軟在這方面有大動作:11 個月前,微軟 Build 開發者大會上有一個重大的宣布,即 Microsoft Bot Framework(微軟 Bot 框架),它讓大家、第三方都能使用。

Bots 的分類

由於時間限制,今天我只會聚焦於 AI 工具,在自然語言處理(NLP)、語音識別這方面。從這個角度,我會回顧自 1990 年代初以來,相關技術經歷的三代發展。

幾個月前,我寫了這篇文章「How deep reinforcement learning can help chatbots」,討論 bots的價值。今天的話題以該文章為基礎。文章中,我首先談到了app 和網絡模型(web models)遇到的問題;其次,對話作為一個新生的、正不斷壯大的移動交互界面(mobile UI),以及在這之中,bots 扮演的人機之間智能代理的角色。我會對技術細節作更深入的討論。

我把 bots 歸納為三個類別:

  • 社交機器人(social chatbot)。這方面,微軟在中國開發的「小冰」相當成功,是個很好的例子。在美國,幾個月前我們發布了聊天機器人 Tay(雷鋒網(公眾號:雷鋒網)注,這就是學會了罵人、在推特上發布不到一天就被緊急撤下的那個,入選年度十大 AI 事件)。

  • 信息機器人 (infobot)。它們其實是搜尋引擎部分功能的替代——它們允許用戶不再需要點擊網頁連結,而能夠直接獲得想要搜索的答案。這減少了一部分麻煩。如果問題比較複雜,你也許只需要兩三輪解釋來是回答更明確。

  • 任務完成機器人(task completion bot),它們能為你做事情。相比只能交談、對話的社交機器人,它們能處理實際問題,所以一般需要第三方的幫助。

口語對話系統的三代發展

現在,我開始講過去一些年技術的進步。近幾年,我們經歷了不少次公眾對於 AI 技術的興奮高潮(hype)。但現實是,相關技術的基礎在 1980 年代末、1990 年代初就已經開發出來了。我會對這些技術如何從第一代發展到最新一代作個概括。

第一代:基於符號規則、模板

首先,第一代技術從 1980 年代末開啟,在流行度上面,幾年前這一波技術就可以說是結束了,雖然你能夠發現一些商用系統和 bot 初創企業還在使用它們。這代技術依賴於專家人工制定的語法規則和本體設計(ontological design)。這些規則很容易解釋、理解,比較透明,這就是這代技術為什麼能催生出一系列的成功商業應用的原因。修補漏洞很容易,系統更新也很容易。

它的局限性:

早期有相當多的高校、政府機關、商業公司研發這類系統。它們可分為語音識別和語言理解系統。它們全都由符號規則組成,需要付出極大的努力來開發。

由於這些局限,第一代技術只能應用於極狹窄的領域,而這也許是一件好事。有一個非常好的、關於這類技術的論文,它的研究對象是伯克利的餐廳。雷鋒網獲知,普通餐廳反而是不行的,因為需要寫的規則太多。

第二代:數據驅動、淺層學習

第二代技術是數據驅動型的。

從業者不願意把這代技術稱之為淺層學習(shallow learning),但事實如此,它們是傳統的淺層學習方法。對了,用於對話規則(dialogue policy)的強化學習就是這時候研究出來的(1990 年代)。今天我們看到的強化學習高潮,在那時就打下了基礎。如今深度學習的進步進一步起到了幫助。

這種基於淺層學習的數據驅動方式,不容易理解和修補漏洞,但確實有學習能力。

這篇論文(「POMDP-based statistical spoken dialogue systems:a review」)對第二代技術做了整體歸納,它發表的時間是 4 年前(2013),恰恰在深度學習登場之前。這篇論文是劍橋大學的成果,他們做了很多努力來把該系統商業化。

第三代:數據驅動的深度學習

第三代技術用深度學習取代了淺層學習的部分。和第二代技術一樣,數據被用來學習對話系統中的所有東西。第三代的神經模型和表示遠遠比前兩代要強大,端到端的學習也變得可行。從兩年前開始,它吸引了全世界範圍內巨大的研究興趣。但它也有許多局限性:

這三代技術有各自的強項,如何把這些優點整合起來,是一項主要的挑戰。很多研究聚焦於此。

強化學習

如何用強化學習來明確地表達這類系統?

如果你仔細考慮「什麼是 state (狀態)?什麼是action(行動)?什麼是reward(獎勵)?」你就可以把上文提到這三種類型的 Bots (社交機器人、信息機器人、任務完成機器人)用強化學習表示出來。

研究前沿

這裡我列出了三項前沿研究領域:

  • 基於語音 vs 基於文字

  • 針對對話的深度強化學習

  • 符號-神經之間的整合

語音識別的未來

語音識別已經取得巨大進展。這裡我的觀點是,語音問題不僅僅是一個信號識別問題,而是信息處理問題。

相關文章:

阿里雲AI專家陳一寧:別被語音識別率的數字所「騙」、語音交互產品大多很雞肋

語音交互的痛點,為什麼扎克伯格精心打造的AI「賈維斯」還會出糗?

NLP工程師技術解讀:智能語音助理類產品的未來在哪裡?

人工智慧 2016 十大裡程碑盤點!革命還是泡沫?

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...
    編者按:鄧力博士原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。在上周的 AI Frontiers 會議上,鄧力博士為參會嘉賓做了口語對話系統的專題演講。雷鋒網與會記者將現場演講記錄下來,結合 PPT 為大家整理出這份演講實錄。此次鄧老師介紹了口語對話系統的分類,三代演變史,以及三大研究前沿領域,可謂乾貨滿滿。NLP 領域的童鞋們不可錯過。
  • AI+系列|對話鄧力:AI浪潮下 弄潮者能做什麼?
    本文為系列採訪第一期,受訪者為微軟人工智慧首席科學家鄧力。在採訪中,鄧力深刻剖析了人工智慧熱潮的關鍵因素,中美人工智慧發展差異,AI人才的發展以及微軟在人工智慧領域近期公開發布的一些布局情況。說到人工智慧,就不得不提到微軟的研究院。在微軟的七大研究院中,成立最早的雷德蒙研究院已經有25年的歷史,而在當時,人工智慧就已經成為這個研究院的研究領域之一。早在1999年底,身為加拿大滑鐵盧大學正教授的鄧力就加入了微軟總部雷德蒙研究院,並憑藉自己深厚的學術功底在2014年初成為該研究院深度學習技術中心研發部門負責人,隨後在2016年初出任微軟人工智慧首席科學家。
  • ...首席科學家鄧力:深度學習十年簡史和人工智慧未來展望(33PDF...
    原標題:微軟人工智慧首席科學家鄧力:深度學習十年簡史和人工智慧未來展望(33PDF下載) 1 新智元原創 > 演講:鄧力,微軟人工智慧首席科學家 整理:聞菲 【新智元導讀】微軟人工智慧首席科學家鄧力18日在首屆發表主旨演講《深度學習十年簡史和人工智慧未來展望》。
  • 微軟小冰的星辰大海:會對話,唱歌,比喻,還有想像……
    點對了科技樹,微軟小冰變得越來越像一個人了。微軟小冰首席科學家宋睿華介紹稱,第七代微軟小冰已成為全球最大的跨領域人工智慧系統之一,產品形態涵蓋了社交對話機器人、智能語音助理、人工智慧內容創作和生產平臺等。
  • 首屆國際分布式AI學術會議議程全公布:姚期智、劉鐵巖主旨演講
    本次會議的特邀報告議程邀請到了圖靈獎得主、清華大學姚期智院士 、多智能體系統創始人、IJCAI「卓越研究獎」得主、麻薩諸塞大學阿默斯特分校 Victor Lessor 教授以及微軟亞洲研究院副院長劉鐵巖博士三位重量級的嘉賓,這一嘉賓陣容也讓特邀報告環節成為了本屆大會的最大亮點。三位嘉賓及各自的特邀報告主題分別如下:圖靈獎得主姚期智
  • 微軟亞研副院長周明離職,將出任創新工場AI工程院首席科學家
    關於離開微軟的原因,周明表示,他加入微軟時立下的兩個目標似乎已經完成,一是和微軟同事一道建立一流的 NLP 研究組,二是與學術界同仁一道幫助中國和亞洲大幅度提升 NLP 研究水平進入世界前列。既然目標已經實現,現在是時候「找一種新的方式去尋求產學合作」了。
  • GTC中國線上大會主題演講:AI 研究的最新進展
    著名計算機科學家 Bill Dally 講述他的團隊如何助力 AI 性能實現逐年翻倍。今天,NVIDIA 首席科學家Bill Dally 在 GTC 中國線上大會主題演講中說道,NVIDIA 的研究人員致力於打造速度更快的 AI 晶片,並將其用於具有更高帶寬的系統,從而簡化編程。
  • 「獨家」圖靈獎得主姚期智出任Pony.ai首席顧問,將打造自動駕駛...
    今年,百度副總裁、AI技術平臺體系總負責人王海峰、微軟全球資深副總裁,微軟亞洲網際網路工程院院長王永東等產業領袖已經確認出席大會並發表演講。谷歌、亞馬遜、BAT、訊飛、京東和華為等企業重量級嘉賓也已確認出席。9月裡北京的陽光並不比加州遜色多少,清華園裡色調溫暖而明快。樹蔭下斑駁的陽光半夢半醒地搖曳著,像是在迎接遠道而來的客人。
  • 2019WAIC| "雙馬"對話"偏題",微軟副總喊話"麻將朋友"……這些開幕...
    包括馬雲、馬斯克在內,來自國內外的500多名重量級嘉賓齊聚一堂,他們中既有全球頂級科學家和企業家、政府官員,也有專家學者、國際組織和行業協會負責人。接下來的3天,嘉賓們將共話人工智慧新趨勢、新應用,交流奇思妙想。
  • 什麼是對話式AI(Conversational AI)? - 文章精選 - CTI論壇-中國...
    CTI論壇(ctiforum.com)(編譯/老秦):  對話式AI:會說話的計算機  對話式AI系統是計算機或程序,它們通過自然語言對話與人進行交互,就像真人一樣。對話式AI借鑑了一組技術,包括語音識別,文本到語音轉換,語音生物識別,自然語言處理(NLP)和機器學習(ML)。
  • 首屆國際分布式AI會議在京召開,姚期智、Lesser坐鎮,德撲、圍棋 AI...
    以下是姚期智在演講最後的總結:Victor R. Lesser:Reflections on DAI History and Coordination TechnologyVictor R. Lesser 可謂是多智能體系統領域的創始人之一。
  • 機器之心GMIS 2017圓滿落幕 聚焦前沿技術、產業落地及AI全球化
    接下來,第四範式首席科學家、香港科技大學計算機科學與工程系主任楊強教授帶來了主題為《遷移學習最新進展》的演講。在演講中,楊強盤點了遷移學習最近的六大進展:一是我們可以通過把問題的結構和內容分離開來而發現不同問題之間的共性;二是層次化的系統可以更容易幫助我們構建機器學習的遷移;三是分段遷移和分段學習;四是讓模型學會遷移的方法,即「學習如何遷移」;五是把遷移學習本身作為一個元學習(Meta Learning),然後再賦予到不同的學習方式上;最後一個進展是數據生成式的遷移學習,即生成對抗網絡(GAN)。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    演講者 | 趙晟、張鵬整理 | 伍杏玲【CSDN 編者按】9 月 7 日,在CSDN主辦的「AI ProCon 2019」上,微軟(亞洲)網際網路工程院人工智慧語音團隊首席研發總監趙晟、微軟(亞洲)網際網路工程院 Office 365資深產品經理,Office 小程序負責人張鵬共同發表《微軟語音AI與微軟聽聽小程序實踐
  • 沈向洋揮別微軟,但微軟人的中國故事沒有劇終
    在組織架構優化方面,2016年9月,微軟將「技術與研發部門」和「人工智慧研究部門」兩部門合併,組建了擁有超過5000名科學家的「微軟人工智慧與研究事業部」,該事業部由時任微軟全球執行副總裁、技術與研發部門主管的沈向洋領導。
  • 微軟上線語音評測功能:基於Azure雲構建,賦能口語學習的教與學
    在教育領域,尤其是口語學習方面,因具有高識別準確率、擬專家打分的高一致性,可以讓口語學習的教和學更加高效方便。近日,微軟亞太研發集團智能語音團隊接受了雷鋒網(公眾號:雷鋒網)等媒體的線上採訪,對微軟智能語音評測技術的優勢和應用場景等內容進行了詳細介紹。
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    為解決這些問題,微軟認知服務團隊的研究人員提出了一種名為視覺詞表預訓練(Visual Vocabulary Pre-training,簡稱VIVO)的解決方案。Azure AI 認知服務首席技術官黃學東解釋說,視覺詞表的預訓練類似於讓孩子們先用一本圖畫書來閱讀,這本圖畫書將單個單詞與圖像聯繫起來,比如一個蘋果的圖片下面有個單詞apple,一隻貓的圖片下面有個單詞cat。視覺詞表的預訓練本質上就是訓練系統完成這種動作記憶。目前,VIVO 在 nocaps 挑戰中取得了 SOTA效果,並首次超越人類表現。
  • 微軟推出「行星計算機」概念,用AI掌握地球一草一木
    7月10日,世界人工智慧大會雲端峰會進入第二天的議程,由微軟主辦的「人工智慧予力永續未來」主題論壇在世博中心召開。為了保護大自然和生物多樣性,科學家們要對所有物種的健康狀況進行監測和分析,然而目前尚沒有足夠的整合數據能幫助科學家們了解地球生態系統的全貌。為了解決這個問題,微軟首席環境官Lucas Joppa提出,可以將此看作一個全球性的優化問題,而人工智慧可以幫助我們解決這個問題。
  • 微軟推出「行星計算機」概念,用AI掌握地球一草一木
    澎湃新聞記者 王心馨7月10日,世界人工智慧大會雲端峰會進入第二天的議程,由微軟主辦的「人工智慧予力永續未來」主題論壇在世博中心召開。在論壇的專題討論環節,清華大學理學院院長、地學系主任宮鵬將當前地球面臨的最大問題總結為:地球生態系統難以支撐人類發展的需求,人類活動加劇造成地球生態服務功能難以為繼,表現為生物多樣性銳減、環境汙染等問題。
  • 十位中國AI界最值得關注的科學家
    4月的一次演講中說,「我們處在一個獨特時期,這是一個人工智慧將會改變世界的時期,如果你知道怎麼運用人工智慧,你今天的一個決策將有可能在接下來十年裡改變世界。」2014年百度在AI的研發投入將近70億,同年5月吳恩達擔任百度公司首席科學家,負責百度研究院的領導工作,尤其是Baidu Brain計劃。
  • 北郵張慶恆:如何基於 rasa 搭建一個中文對話系統 (有源碼視頻)|...
    :對話系統是自然語言處理的一個熱門話題,而自然語言理解則是對話系統的關鍵組成部分,現有的很多自然語言理解工具往往以服務的方式獲取(Google 的 API.ai, Facebook 的 Wit.ai 等),使用這些服務往往需要向服務提供商提供自己的數據,並且根據自己業務調試模型很不方便。