Manning、Ostendorf、Povey、何曉冬、周明共話多模態NLP的機遇和...

2020-12-23 砍柴網

圓桌論壇 AI新疆域：多模態自然語言處理前沿趨勢

主持人：何曉冬，京東集團技術副總裁智源學者

論壇嘉賓：

Christopher Manning：斯坦福人工智慧實驗室（SAIL）主任

Mari Ostendorf：華盛頓大學電子與計算機工程系教授

周明：微軟亞洲研究院副院長

Daniel Povey：小米集團語音首席科學家

語音、文本、圖像等單一模態領域，在以深度學習為主的機器學習算法的推動下，已經取得了巨大的成功。然而在複雜情況下，完整的信息會同時涉及多種模態；利用單一模態信息來完成任務，往往力不從心。因此，近年來多模態機器學習研究逐漸發展起來，並取得了許多重大進展，成為了人工智慧的一個重要分支。但多模態研究仍處於起步階段，其中既面臨著巨大的挑戰，也存在著巨大的機遇。

那麼，在自然語言處理領域，多模態研究又將怎樣發展呢？圍繞這一問題，6月22日，在第二屆智源大會上舉行的「語音與自然語言處理專題論壇」中，由京東集團技術副總裁、智源學者何曉冬主持召開了「AI新疆域：多模態自然語言處理」的圓桌論壇」，斯坦福人工智慧實驗室（SAIL）主任Christopher Manning、華盛頓大學電子與計算機工程教授 Mari Ostendorf、微軟亞洲研究院副院長周明、小米集團語音首席科學家 Daniel Povey 等在線上匯聚一堂，就多模態自然語言處理發展中的關鍵問題進行了深度對話。

構建多模態知識庫很重要

何曉冬：隨著研究者們把目光聚焦在純文本之外的其它模態的信息，自然語言處理領域迎來的新的機遇和挑戰，人們很希望能從多模態數據中獲益。另一方面，在過去的幾年當中，人們越來越關注對數據的研究，並開始在大規模數據集上預訓練。規模龐大的數據雖至關重要，但在多模態多輪對話等複雜的應用場景下，光靠大量的文本數據是不夠的，還需要儘可能多的所謂的「知識」。那麼「多模態知識驅動的自然語言處理」這一關鍵問題，接下來的幾年裡會有怎樣的技術突破和發展呢？最近的突破是大規模預訓練模型BERT，以及其它大量數據注入的模型和處理大規模數據的新算法。那麼多模態知識驅動的自然語言處理是否會帶來類似的突破呢？

Christopher Manning：在60、70、80年代研究者眼裡，一個很自然的想法就是如何用具有知識的算法來得到更好的智能推斷的效果。但在當時建立一個完備的基於知識庫的系統是很困難的。儘管如此，還是有人不斷的在建立完備的知識庫上不斷努力。現在看來，很多人相信這樣的想法似乎是錯誤的，因為目前我們可以在一個領域內通過大量的訓練數據得到不錯的知識表示效果。然而，最近許多多模態相關的研究證明，超越文本的多模態知識庫是非常重要且困難的。我們想要的知識並不是像從百科全書中抽取詞條那麼簡單，例如要判斷一個人是否喜歡牛仔褲，需要了解關於這個人本身的許多背景知識，這些知識可以從對話中提取，也可以從其他模態的數據中獲取。如果能很好的獲取感興趣內容的多模態的完整知識，那麼將對多輪對話領域發展起到重要作用。

何曉冬：謝謝Christopher教授精彩的分析，這讓我想起Mari在演講中講到：自然語言處理中常用的「背景信息」應該是隨著時間和狀態發生變化的，而非一個靜態的知識表示，Mari關於語言背景信息的定義和你說的用戶相關信息很相似。Mari如何看待這一觀點呢？

Mari Ostendorf：我同意Christopher教授的觀點，用戶相關的背景信息用於建模是很重要的，人們日常在談論某一件事情的時候往往綜合了許多不同的信息。在需要快速反應的對話系統中，往往需要從一個對話場景快速切換到另一個場景，好的知識表示有助於快速得到信息。想要把任何東西都用一大串文本來表示是不現實的，用科學的知識表示顯得尤為重要。好的知識表示應當具有「進化」能力，能夠隨著時間變化。當然了，知識表示存在一定的信息冗餘，人們可以有選擇地運用這些知識表示。

多模態數據如何驅動NLP的發展

何曉冬：Mari教授提到知識並不一定是必須有用的，但卻是我們必須具備的，可以有選擇性的使用，這個觀點非常有趣。與多知識相關的研究也包括了多任務、多語言和多模態學習，這些在不同任務上分布的數據來源非常廣泛，但往往結構性不強。這類多模態數據將如何驅動NLP領域的發展呢？

周明：知識表示是非常重要的，但同樣重要的一點是哪類知識是我們真正需要的。知識可以分為共性的、任務相關的、開放領域等多種類型。我們的語言學知識更依賴於具體的任務。儘管預訓練模型可以學習到許多共性的知識，但真正在下遊任務上使用的話，還需要進一步用任務相關的數據來訓練模型。舉個問答系統的例子來說，僅僅靠以往發布的訓練數據就可以訓練一個不錯的模型嗎？我想不是的，好的問答系統應當對對話場景有一個比較好的適應，用戶滿意的不是共性答案，而是那些最適合具體問題場景的答案。總而言之，從包括視覺、語言等多模態數據中儘可能廣泛的獲取知識是非常重要的，但更為重要的是如何在特定場景下有選擇性的使用這些知識。多模態預訓練就是一個很好的獲取跨模態的知識的方式，未來還有很多多模態預訓練相關的工作可以做。

何曉冬：周明老師的觀點很有啟發性，為了抽取出真正需要的知識，把預訓練得到的知識和任務相關的知識進行結合更能夠適應現實任務的需要。人類的語言內容要通過語音發出，Daniel是語音方面的專家，您怎麼看待多模態知識這個問題呢？

Daniel Povey：在我看來語音信號本身和知識關係不大，因為語音信號的發出是物理過程，知識是無法通過語音信號和語音模型區分的。所以從單純的語音到知識過程，似乎研究意義不大，但通過語言這一橋梁就可以連接語音和知識了，所以語音這一模態的信息更依賴於通過語言來體現。

值得期待的技術突破

何曉冬：人類說出話語的過程實際上是語言表達的過程，也是知識傳遞的過程。由於知識結構的複雜性，不同的研究方向會有不同的解讀。不過從當下的研究進展來看，預訓練的確是目前最好的從文本語言中獲取知識的手段。超越文本的知識需要新的解決方案，剛才Mari提到背景知識用於建模的方法，及知識表示應具有進化能力的觀點非常精彩。周明博士則從如何獲取有用知識的角度進行了分析。事實上，NLP領域最近也逐漸從純文本的研究邁向了多模態研究，例如融合文本和視覺信息。同樣隨之而來也有許多有趣的應用，例如圖片問答、多模態對話系統等等。自然語言處理領域的發展非常十分迅速，不僅帶動了許多任務相關領域的進步，也推動了語言模型本身如BERT的發展。多模態作為自然語言處理的新的突破口，Manning博士，在您看來最值得期待的進展和技術突破是什麼？

Christopher Manning：多模態確實是一個值得探索的方向，也能看出來有許多有趣的工作值得去做，比如圖片標題生成、視覺問答等。我比較期待的發展方向是從多模態角度出發，綜合多種信息來回答一系列問題的智能體的出現，並能實現多種信息之間的交互，這些信息中相當一部分來自非語言學知識。

何曉冬：事實上，人們已經開始研究Manning教授所說的多模態信息交互了。智源發布的多模態對話數據集和挑戰賽正是為了推動多模態信息交互而開展的。剛才Mari教授也提到，不同的信號處理能夠得到不同的模態數據，不僅僅可以從圖像、文本角度出發，也可以從音頻本身的頻率信息出發獲取有用的音頻模態信息，Mari教授可以詳細說一些這個思路嗎？

Mari Ostendorf：我認為多模態信息除了圖像和文本，音頻中也存在大量信息，比如音頻的韻律對分析一個人說話的情感就非常重要。另外，多人對話的研究將是一個新的研究方向。在多人討論的場景下，準確地識別當前在和哪個人對話是一項必要工作。此外，如何利用更多模態的信息，來更好的實現人機互動也是需要不斷努力的方向。另一個可研究方向是剛才Manning教授提到的類人智能體，與智能體交互的時候，智能體應該能和人一樣，對周圍的環境有一個比較強的視覺辨識能力，也應該對對話內容有一個全面的認識，幾種模態之間信息的對齊和篩選是至關重要的。

何曉冬：在一個非常複雜的場景當中，如果想要實現Mari教授所說的，複雜環境下的交互的智能體，那必然就需要許多傳感器來獲取多種信息，並這些信息進行進一步的區分和匯總。談到多種信息，我想起周明老師在演講中提到了多語言學習的相關研究，那假如我們想要一個智能體能夠懂得一百種語言，自然就需要跨語言學習，關於多模態信息的跨語言學習研究，我們可以有什麼期待呢？

周明：剛才Mari教授和Manning教授所說的觀點我是很贊同的，我從實際產業視角下來看也能得出類似的結論。不過從產業上的大數據量、深層次模型和大規模應用的要求之下，如何靈活有效的訓練多語言和多模態模型是一個至關重要的問題。數據是模型的第一個關鍵點，首先要構建一個具有統一範式的多模態資料庫，並不斷在有趣的任務上進行嘗試。如何獲得足夠大量、準確、多方面的多模態數據本身就是一個不小的挑戰。其次，要找到新方法來高效訓練具有強適應能力的深度模型。產業界也很關注用戶體驗，好的客戶服務需要了解客戶多方面的信息，好的多模態語言處理也應當利用與語言信息有關的其它信息。當構建了大規模多模態數據集之後，如何對信息進行有效整合，是對研究人員提出的新的挑戰。

何曉冬：從周明博士的分析看來，儘管大家面對的是同樣的科學問題，產業界和學術界確實也還有著不一樣的要求。那麼我想問一下Daniel作為產業界的語音處理專家，在處理語音的時候，會不會考慮情感等信息呢？

Daniel Povey：我對語音識別領域有著挺長時間的研究，開發和維護了語音識別開源工具 Kaldi，目前我們已經能夠成功的進行語音到文本的轉換。但音頻信息的利用還有很大的前景。如果能有效的對音頻中的音調、音色、韻律等信息進行分析提取，獲取到的也將會是很有用的多模態信息。當前對大規模多模態數據的標註面臨一些挑戰。例如如何對大規模的音頻和視頻數據進行標註，粒度應當如何，什麼樣的標籤信息是真正有意義的，這些問題都值得去深入探索。

何曉冬：非常感謝幾位專家學者從自己的研究興趣出發，對多模態自然語言處理的研究做了鞭辟入裡的分析。多模態方向的研究從數據構建、建模方法、評估標準、訓練算法等多個角度來講都是一個較新的領域，也是很有發展前景的方向，未來多模態自然語言處理的研究方向將大有可為。

關於2020 北京智源大會

北京智源大會是北京智源人工智慧研究院主辦的年度國際性人工智慧高端學術交流活動，以國際性、權威性、專業性和前瞻性的「內行AI大會」為宗旨。2020年6月21日-24日，為期四天的2020北京智源大會在線上圓滿舉辦。來自20多個國家和地區的150多位演講嘉賓，和來自50多個國家、超過50萬名國內外專業觀眾共襄盛會。

以上文章來自於2020北京智源大會嘉賓演講的整理報導系列，整理：智源社區亓麟。

Manning、Ostendorf、Povey、何曉冬、周明共話多模態NLP的機遇和...

相關焦點

京東副總裁何曉冬:GPT-3後,人機對話與交互何去何從?|CCF-GAIR 2020

復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

資料| CCF-NLP走進鄭州大學演講PPT

PTMs|2020最新NLP預訓練模型綜述

從體驗認知視域談多模態教學

我是戰史研究者周明,關於淞滬會戰的來龍去脈,問我吧!

關於Spark NLP學習,你需要掌握的LightPipeline(附代碼)|CSDN博文...

偶像剪輯,一鍵獲取:多模態聯合建模的視頻人物摘要

多模態話語視域下扶貧宣傳片對外傳播文本研究

「多模態AI」會對人察言觀色更接近人類五感

微軟亞洲研究院副院長周明辭職,將擔任創新工程人工智慧工程研究所...

html框架——bootstrap手動控制模態框隱藏和顯示

什麼是Trimmed Body模態分析?

日本法西斯主義者大川周明為何要做伊斯蘭研究?

人工智慧在醫學影像中的應用研究——超聲跨模態影像分析

人機互動新突破:百度發布主動多模態交互技術

桂電人|廣西人大代表、桂林海威科技公司董事長周明

百度多模態模型ERNIE-ViL刷新5項任務紀錄,登頂權威榜單VCR

基於機動LSTM的周圍車輛多模態軌跡預測

從人格主義與多模態隱喻看《至暗時刻》:平凡的偉大領袖

Manning、Ostendorf、Povey、何曉冬、周明共話多模態NLP的機遇和...

相關焦點

京東副總裁何曉冬:GPT-3後,人機對話與交互何去何從?|CCF-GAIR 2020

復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

資料| CCF-NLP走進鄭州大學演講PPT

PTMs|2020最新NLP預訓練模型綜述

從體驗認知視域談多模態教學

我是戰史研究者周明,關於淞滬會戰的來龍去脈,問我吧!

關於Spark NLP學習,你需要掌握的LightPipeline(附代碼)|CSDN博文...

偶像剪輯,一鍵獲取:多模態聯合建模的視頻人物摘要

多模態話語視域下扶貧宣傳片對外傳播文本研究

「多模態AI」會對人察言觀色 更接近人類五感

微軟亞洲研究院副院長周明辭職,將擔任創新工程人工智慧工程研究所...

html框架——bootstrap手動控制模態框隱藏和顯示

什麼是Trimmed Body模態分析?

日本法西斯主義者大川周明為何要做伊斯蘭研究?

人工智慧在醫學影像中的應用研究——超聲跨模態影像分析

人機互動新突破:百度發布主動多模態交互技術

桂電人|廣西人大代表、桂林海威科技公司董事長周明

百度多模態模型ERNIE-ViL刷新5項任務紀錄,登頂權威榜單VCR

基於機動LSTM的周圍車輛多模態軌跡預測

從人格主義與多模態隱喻看《至暗時刻》:平凡的偉大領袖

「多模態AI」會對人察言觀色更接近人類五感