Manning、Ostendorf、Povey、何曉冬、周明共話多模態NLP的機遇和...

2020-12-23 砍柴網

圓桌論壇 AI新疆域:多模態自然語言處理前沿趨勢

主持人:何曉冬,京東集團技術副總裁 智源學者

論壇嘉賓:

Christopher Manning:斯坦福人工智慧實驗室(SAIL)主任

Mari Ostendorf:華盛頓大學電子與計算機工程系教授

周明:微軟亞洲研究院副院長

Daniel Povey:小米集團語音首席科學家

語音、文本、圖像等單一模態領域,在以深度學習為主的機器學習算法的推動下,已經取得了巨大的成功。然而在複雜情況下,完整的信息會同時涉及多種模態;利用單一模態信息來完成任務,往往力不從心。因此,近年來多模態機器學習研究逐漸發展起來,並取得了許多重大進展,成為了人工智慧的一個重要分支。但多模態研究仍處於起步階段,其中既面臨著巨大的挑戰,也存在著巨大的機遇。

那麼,在自然語言處理領域,多模態研究又將怎樣發展呢?圍繞這一問題,6月22日,在第二屆智源大會上舉行的「語音與自然語言處理專題論壇」中,由京東集團技術副總裁、智源學者何曉冬主持召開了「AI新疆域:多模態自然語言處理」的圓桌論壇」,斯坦福人工智慧實驗室(SAIL)主任Christopher Manning、華盛頓大學電子與計算機工程教授 Mari Ostendorf、微軟亞洲研究院副院長周明、小米集團語音首席科學家 Daniel Povey 等在線上匯聚一堂,就多模態自然語言處理發展中的關鍵問題進行了深度對話。

構建多模態知識庫很重要

何曉冬:隨著研究者們把目光聚焦在純文本之外的其它模態的信息,自然語言處理領域迎來的新的機遇和挑戰,人們很希望能從多模態數據中獲益。另一方面,在過去的幾年當中,人們越來越關注對數據的研究,並開始在大規模數據集上預訓練。規模龐大的數據雖至關重要,但在多模態多輪對話等複雜的應用場景下,光靠大量的文本數據是不夠的,還需要儘可能多的所謂的「知識」。那麼「多模態知識驅動的自然語言處理」這一關鍵問題,接下來的幾年裡會有怎樣的技術突破和發展呢?最近的突破是大規模預訓練模型BERT,以及其它大量數據注入的模型和處理大規模數據的新算法。那麼多模態知識驅動的自然語言處理是否會帶來類似的突破呢?

Christopher Manning:在60、70、80年代研究者眼裡,一個很自然的想法就是如何用具有知識的算法來得到更好的智能推斷的效果。但在當時建立一個完備的基於知識庫的系統是很困難的。儘管如此,還是有人不斷的在建立完備的知識庫上不斷努力。現在看來,很多人相信這樣的想法似乎是錯誤的,因為目前我們可以在一個領域內通過大量的訓練數據得到不錯的知識表示效果。然而,最近許多多模態相關的研究證明,超越文本的多模態知識庫是非常重要且困難的。我們想要的知識並不是像從百科全書中抽取詞條那麼簡單,例如要判斷一個人是否喜歡牛仔褲,需要了解關於這個人本身的許多背景知識,這些知識可以從對話中提取,也可以從其他模態的數據中獲取。如果能很好的獲取感興趣內容的多模態的完整知識,那麼將對多輪對話領域發展起到重要作用。

何曉冬:謝謝Christopher教授精彩的分析,這讓我想起Mari在演講中講到:自然語言處理中常用的「背景信息」應該是隨著時間和狀態發生變化的,而非一個靜態的知識表示,Mari關於語言背景信息的定義和你說的用戶相關信息很相似。Mari如何看待這一觀點呢?

Mari Ostendorf:我同意Christopher教授的觀點,用戶相關的背景信息用於建模是很重要的,人們日常在談論某一件事情的時候往往綜合了許多不同的信息。在需要快速反應的對話系統中,往往需要從一個對話場景快速切換到另一個場景,好的知識表示有助於快速得到信息。想要把任何東西都用一大串文本來表示是不現實的,用科學的知識表示顯得尤為重要。好的知識表示應當具有「進化」能力,能夠隨著時間變化。當然了,知識表示存在一定的信息冗餘,人們可以有選擇地運用這些知識表示。

多模態數據如何驅動NLP的發展

何曉冬:Mari教授提到知識並不一定是必須有用的,但卻是我們必須具備的,可以有選擇性的使用,這個觀點非常有趣。與多知識相關的研究也包括了多任務、多語言和多模態學習,這些在不同任務上分布的數據來源非常廣泛,但往往結構性不強。這類多模態數據將如何驅動NLP領域的發展呢?

周明:知識表示是非常重要的,但同樣重要的一點是哪類知識是我們真正需要的。知識可以分為共性的、任務相關的、開放領域等多種類型。我們的語言學知識更依賴於具體的任務。儘管預訓練模型可以學習到許多共性的知識,但真正在下遊任務上使用的話,還需要進一步用任務相關的數據來訓練模型。舉個問答系統的例子來說,僅僅靠以往發布的訓練數據就可以訓練一個不錯的模型嗎?我想不是的,好的問答系統應當對對話場景有一個比較好的適應,用戶滿意的不是共性答案,而是那些最適合具體問題場景的答案。總而言之,從包括視覺、語言等多模態數據中儘可能廣泛的獲取知識是非常重要的,但更為重要的是如何在特定場景下有選擇性的使用這些知識。多模態預訓練就是一個很好的獲取跨模態的知識的方式,未來還有很多多模態預訓練相關的工作可以做。

何曉冬:周明老師的觀點很有啟發性,為了抽取出真正需要的知識,把預訓練得到的知識和任務相關的知識進行結合更能夠適應現實任務的需要。人類的語言內容要通過語音發出,Daniel是語音方面的專家,您怎麼看待多模態知識這個問題呢?

Daniel Povey:在我看來語音信號本身和知識關係不大,因為語音信號的發出是物理過程,知識是無法通過語音信號和語音模型區分的。所以從單純的語音到知識過程,似乎研究意義不大,但通過語言這一橋梁就可以連接語音和知識了,所以語音這一模態的信息更依賴於通過語言來體現。

值得期待的技術突破

何曉冬:人類說出話語的過程實際上是語言表達的過程,也是知識傳遞的過程。由於知識結構的複雜性,不同的研究方向會有不同的解讀。不過從當下的研究進展來看,預訓練的確是目前最好的從文本語言中獲取知識的手段。超越文本的知識需要新的解決方案,剛才Mari提到背景知識用於建模的方法,及知識表示應具有進化能力的觀點非常精彩。周明博士則從如何獲取有用知識的角度進行了分析。事實上,NLP領域最近也逐漸從純文本的研究邁向了多模態研究,例如融合文本和視覺信息。同樣隨之而來也有許多有趣的應用,例如圖片問答、多模態對話系統等等。自然語言處理領域的發展非常十分迅速,不僅帶動了許多任務相關領域的進步,也推動了語言模型本身如BERT的發展。多模態作為自然語言處理的新的突破口,Manning博士,在您看來最值得期待的進展和技術突破是什麼?

Christopher Manning:多模態確實是一個值得探索的方向,也能看出來有許多有趣的工作值得去做,比如圖片標題生成、視覺問答等。我比較期待的發展方向是從多模態角度出發,綜合多種信息來回答一系列問題的智能體的出現,並能實現多種信息之間的交互,這些信息中相當一部分來自非語言學知識。

何曉冬:事實上,人們已經開始研究Manning教授所說的多模態信息交互了 。智源發布的多模態對話數據集和挑戰賽正是為了推動多模態信息交互而開展的。剛才Mari教授也提到,不同的信號處理能夠得到不同的模態數據,不僅僅可以從圖像、文本角度出發,也可以從音頻本身的頻率信息出發獲取有用的音頻模態信息,Mari教授可以詳細說一些這個思路嗎?

Mari Ostendorf:我認為多模態信息除了圖像和文本,音頻中也存在大量信息,比如音頻的韻律對分析一個人說話的情感就非常重要。另外,多人對話的研究將是一個新的研究方向。在多人討論的場景下,準確地識別當前在和哪個人對話是一項必要工作。此外,如何利用更多模態的信息,來更好的實現人機互動也是需要不斷努力的方向。另一個可研究方向是剛才Manning教授提到的類人智能體,與智能體交互的時候,智能體應該能和人一樣,對周圍的環境有一個比較強的視覺辨識能力,也應該對對話內容有一個全面的認識,幾種模態之間信息的對齊和篩選是至關重要的。

何曉冬:在一個非常複雜的場景當中,如果想要實現Mari教授所說的,複雜環境下的交互的智能體,那必然就需要許多傳感器來獲取多種信息,並這些信息進行進一步的區分和匯總。談到多種信息,我想起周明老師在演講中提到了多語言學習的相關研究,那假如我們想要一個智能體能夠懂得一百種語言,自然就需要跨語言學習,關於多模態信息的跨語言學習研究,我們可以有什麼期待呢?

周明:剛才Mari教授和Manning教授所說的觀點我是很贊同的,我從實際產業視角下來看也能得出類似的結論。不過從產業上的大數據量、深層次模型和大規模應用的要求之下,如何靈活有效的訓練多語言和多模態模型是一個至關重要的問題。數據是模型的第一個關鍵點,首先要構建一個具有統一範式的多模態資料庫,並不斷在有趣的任務上進行嘗試。如何獲得足夠大量、準確、多方面的多模態數據本身就是一個不小的挑戰。其次,要找到新方法來高效訓練具有強適應能力的深度模型。產業界也很關注用戶體驗,好的客戶服務需要了解客戶多方面的信息,好的多模態語言處理也應當利用與語言信息有關的其它信息。當構建了大規模多模態數據集之後,如何對信息進行有效整合,是對研究人員提出的新的挑戰。

何曉冬:從周明博士的分析看來,儘管大家面對的是同樣的科學問題,產業界和學術界確實也還有著不一樣的要求。那麼我想問一下Daniel作為產業界的語音處理專家,在處理語音的時候,會不會考慮情感等信息呢?

Daniel Povey:我對語音識別領域有著挺長時間的研究,開發和維護了語音識別開源工具 Kaldi,目前我們已經能夠成功的進行語音到文本的轉換。但音頻信息的利用還有很大的前景。如果能有效的對音頻中的音調、音色、韻律等信息進行分析提取,獲取到的也將會是很有用的多模態信息。當前對大規模多模態數據的標註面臨一些挑戰。例如如何對大規模的音頻和視頻數據進行標註,粒度應當如何,什麼樣的標籤信息是真正有意義的,這些問題都值得去深入探索。

何曉冬:非常感謝幾位專家學者從自己的研究興趣出發,對多模態自然語言處理的研究做了鞭辟入裡的分析。多模態方向的研究從數據構建、建模方法、評估標準、訓練算法等多個角度來講都是一個較新的領域,也是很有發展前景的方向,未來多模態自然語言處理的研究方向將大有可為。

關於2020 北京智源大會

北京智源大會是北京智源人工智慧研究院主辦的年度國際性人工智慧高端學術交流活動,以國際性、權威性、專業性和前瞻性的「內行AI大會」為宗旨。2020年6月21日-24日,為期四天的2020北京智源大會在線上圓滿舉辦。來自20多個國家和地區的150多位演講嘉賓,和來自50多個國家、超過50萬名國內外專業觀眾共襄盛會。

以上文章來自於2020北京智源大會嘉賓演講的整理報導系列,整理:智源社區 亓麟。

相關焦點

  • 京東副總裁何曉冬:GPT-3後,人機對話與交互何去何從?|CCF-GAIR 2020
    8月7日下午,在「人工智慧前沿專場」上,京東集團副總裁、人工智慧研究院常務副院長、及智能人機互動業務負責人何曉冬博士進行了題為「多模態人機對話與交互: 理解、創作、決策」的演講。何曉冬博士的演講圍繞人機對話系統的發展與應用展開,結合對「AI新秀」GPT-3的技術探討,針對GPT-3等超大規模語言模型缺少知識和邏輯推理能力以及主要還局限於文本數據的短板,提出將高複雜的知識推理與決策任務及多模態的信息處理技術作為人工智慧未來發展的驅動力。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    包括:表徵的類型,即:是否上下文感知編碼器結構,如:LSTM、CNN、Transformer預訓練任務類型,如:語言模型LM,帶掩碼的語言模型MLM,排列語言模型PLM,對比學習等針對特定場景的拓展和延伸。如:知識增強預訓練,多語言預訓練,多模態預訓練和模型壓縮等3、如何將PTMs學到的知識遷移到下遊的任務中。
  • 資料| CCF-NLP走進鄭州大學演講PPT
    回放視頻:https://www.yanxishe.com/events/ccf-nlp-zzu資料包括的分享內容:周明   演講主題:預訓練模型在多語言和多模態任務中的一些新進展周國棟   演講主題:自然語言與理解補充說明本站所有資源版權均屬於原作者所有
  • PTMs|2020最新NLP預訓練模型綜述
    如:知識增強預訓練,多語言預訓練,多模態預訓練和模型壓縮等3. 如何將PTMs學到的知識遷移到下遊的任務中。4. 收集了目前關於PTMs的學習資料。5.「nlp領域好的文本表徵則意味著能夠捕捉蘊含在文本中的隱性的語言學規則和常識性知識.」
  • 從體驗認知視域談多模態教學
    現實生活中的語言交流很少依靠單一的聽說模態,而是整合了視覺、動覺、觸覺等多重模態,故而語言學習在本質上也應是多模態的。因此多模態教學鼓勵將不同的感官模態整合起來,而不是像傳統的外語教學那樣過度地依賴聽說。  多模態教學充分結合身體和認知。
  • 我是戰史研究者周明,關於淞滬會戰的來龍去脈,問我吧!
    我是周明,戰史研究學者,長期從事軍事歷史研究,對第二次世界大戰、抗戰、解放戰爭的研究頗有造詣。曾任《國際展望》雜誌編輯。淞滬會戰的導火線是什麼?後期被動局面又是如何造成的?四行倉庫保衛戰的史料記載是什麼?關於淞滬會戰的歷史,問我吧!
  • 關於Spark NLP學習,你需要掌握的LightPipeline(附代碼)|CSDN博文...
    各個階段按順序執行,並將輸入的DataFrame轉換和傳遞給下一個階段。數據如此按序的在pipeline中傳遞。我們現在再來看看Spark NLP是如何使用Annotator和Transformer的。
  • 偶像剪輯,一鍵獲取:多模態聯合建模的視頻人物摘要
    針對以上問題,本文引入了一個新的框架用於自動生成視頻人物摘要,並通過文本與視覺的模態融合來增強摘要的質量。該任務可以定義為:給定包含多模態信息的原始視頻以及目標人物,目的是從原始視頻中自動抽取出包含目標人物的摘要視頻。
  • 多模態話語視域下扶貧宣傳片對外傳播文本研究
    本研究擬借鑑多模態話語分析綜合理論框架和視覺語法理論,建構一個包含文化、語境、形式、意義四個層面的理論框架,對系列短片中多符號系統要素的使用展開研究,探究研究對象是如何運用包含多種模態在內的語篇資源,構建起語篇的整體意義,並實現其傳播目的。
  • 「多模態AI」會對人察言觀色 更接近人類五感
    這種技術被稱為「多模態AI」,像人類通過五感理解周圍那樣,可以通過圖像、聲音和文件等多種數據作出高水平判斷。AI更接近人類,對社會各個場景帶來影響,這樣的未來即將到來。   「您吃飯了嗎?」「您吃藥了嗎?」可愛的機器人跟老人聊天的時候順便提醒道。
  • 微軟亞洲研究院副院長周明辭職,將擔任創新工程人工智慧工程研究所...
    周明在朋友圈的一段文字中寫道:「今日惜別微軟,工作二十一年多,我學到很多,我非常感恩。」關於離開微軟的原因,周明表示,他加入微軟時立下的兩個目標似乎已經完成,一是和微軟同事一道建立一流的 NLP 研究組,二是與學術界同仁一道幫助中國和亞洲大幅度提升 NLP 研究水平進入世界前列。既然目標已經實現,現在是時候「找一種新的方式去尋求產學合作」了。
  • html框架——bootstrap手動控制模態框隱藏和顯示
    其中在業務的開發過程中,存在這樣的業務場景:點擊編輯按鈕,彈出模態框,然後在模態框中對信息進行編輯。bootstrap的模態框,如果設置的是默認點擊空白處自動關閉,不是自己通過JS進行控制時,驗證信息使用alert("XXXX"),點擊否,會直接關閉模態框,之前填寫的內容會清空,導致用戶體驗不好。那麼怎麼解決這個問題呢?
  • 什麼是Trimmed Body模態分析?
    模態分析中模態頻率和模態振型直接反應車身的動態性能,一階重要模態的識別影響整車模態分布表的規劃。但有些模型很難通過肉眼直接判斷一階重要模態,通過模態識別方法可以準確的判斷出白車身、TRIMMEDBODY以及整車級的典型模態,並結合模態振型和經驗來最終確定出重要模態。1、什麼是Trimmed Body?
  • 日本法西斯主義者大川周明為何要做伊斯蘭研究?
    其後,大川周明開始主持大東亞共榮圈的理論建設,對殖民地問題的深入研究更是使他進入了日本軍方智庫。但是,「二戰」不可逆轉的結束徹底破碎大川周明的「皇國夢」,只得鬱鬱而終。大川周明看似受到了許多思潮的影響,但他的思想根源卻來自儒家,來自中國的「陽明之學」。
  • 人工智慧在醫學影像中的應用研究——超聲跨模態影像分析
    多模態醫療影像分析技術的最新進展 醫療影像中有著豐富的多模態信息。多模態醫療影像分析可以大致分為幾個方向:缺失多模態影像生成、多模態影像融合與配準以及基於多模態影像的自動診斷等。 缺失多模態影像生成是醫療影像分析的一大重點。
  • 人機互動新突破:百度發布主動多模態交互技術
    為了使得機器人能夠更加理解場景的細節,帶來更加智能、友好、和自然化的交互體驗,百度提出了全新的「基於視覺記號和Transformer模型的人機主動交互系統」(TransFormer with Visual Tokens for Human-Robot Interaction,簡稱TFVT-HRI).這套系統不僅能觀察場景主動發起交互和引導,其交互的動作更是包含千餘種多模態動作,使其能夠像人類一樣表現出自然的主動問候
  • 桂電人|廣西人大代表、桂林海威科技公司董事長周明
    這些成果的背後,都離不開海威科技的領路人周明。周明,桂林電子科技大學82級校友,海威科技股份有限公司董事長,24年間,他將一個註冊資本60萬元、10餘員工的微型公司,發展成為註冊資本超1億元、300多名員工、年銷售額達上億元的企業。
  • 百度多模態模型ERNIE-ViL刷新5項任務紀錄,登頂權威榜單VCR
    機器之心報導機器之心編輯部近日,百度在多模態語義理解領域取得突破,提出知識增強視覺-語言預訓練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態預訓練,在 5 項多模態任務上刷新世界最好效果,並在多模態領域權威榜單 VCR
  • 基於機動LSTM的周圍車輛多模態軌跡預測
    因此,我們需要彈道預測模型,以解決預測的多模態性質。圖1.在複雜交通中部署的自動駕駛車輛(如圖中所示),需要有能力預測周圍車輛的未來運動。我們提出的LSTM模型允許基於機動類對周圍車輛軌跡進行非線性和多模態預測。它還為每個模式分配了相應概率,並在每個模式周圍輸出了預測的不確定性。
  • 從人格主義與多模態隱喻看《至暗時刻》:平凡的偉大領袖
    不僅如此,兩位作者還指出,隱喻不是語言層面上的,而是概念性的,之後,另外兩位學者,Forceville與Urios-Aparisi,受到《多模態隱喻》中將「模態」定義為「藉助具體的感知過程來進行闡釋的符號系統」的啟發,進一步做了「單模態隱喻(mono-nodal metaphor)」和「多模態隱喻(multinodal metaphor)」的區分,簡單理解,前者指單一的言語隱喻或者圖像隱喻