快手科技李巖:多模態技術在產業界的應用與未來展望

2020-12-08 騰訊網

機器之心報導

演講者:李巖

在 CNCC2018「高通量媒體內容理解論壇」上,快手科技多媒體內容理解部負責人李巖發表了題為「多模態內容生產與理解」的演講,講述了帶領多媒體內容理解部在多模態研究上取得的一些進展。

李巖在演講中表示,多模態技術有兩大應用方向,一是會改變人機互動的方式,二是將使信息分發更加高效;視頻本身就是一個多模態的問題,而快手則擁有海量的多模態數據,多模態的研究對於快手來說是非常重要的課題;目前快手已經在語音識別與合成、智能視頻配樂、通過 2D 圖像驅動 3D 建模特效、視頻精準理解等領域對多模態技術進行研發應用。

以下為演講的主要內容:

大家好,首先我來簡單介紹一下快手,在這個平臺,用戶能夠被廣闊的世界看到,也能夠看到廣闊的世界,我們可以看一下快手的數據: 70 億條視頻總量、1500 萬日新增視頻,日均的使用時長超過 60 分鐘等,所以快手平臺上有非常多的多媒體數據,同時也有非常多的用戶交互數據,比如我們每天有 1.3 億用戶觀看超過 150 億次視頻的播放數據。

我們知道視頻是視覺、聽覺、文本多種模態綜合的信息形式,而用戶的行為也是另外一種模態的數據,所以視頻本身就是一個多模態的問題,再加上用戶行為就更是一種更加複雜的多模態問題。所以多模態的研究對於快手來說,是非常重要的課題。

多模態技術兩大應用方向:人機互動與信息分發

我認為多模態技術會有兩大主要的應用。

第一,多模態技術會改變人機互動的方式,我們與機器交互的方式將會越來越貼近於更令人舒適、更自然的方式。

第二,多模態技術會使得信息的分發更加高效。

多模態技術研究的三個難點:語義鴻溝、異構鴻溝、數據缺失

其實在目前來看,多模態研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝,雖然近十年來深度學習和大算力、大數據快速發展,計算機視覺包括語音識別等技術都取得了非常大的進展,但是截至現在,很多問題還沒有得到特別好的解決,所以單模態的語義鴻溝仍然是存在的。

再者,由於引入了多種模態的信息,所以怎樣對不同模態之間的數據進行綜合建模,會是一個異構鴻溝的問題。

另外,做語音、做圖像是有很多數據集的,大家可以利用這些數據集進行刷分、交流自己算法的研究成果。但是多模態的數據集是非常難以構建的,所以我們在做多模態研究時是存在數據缺失的問題的。

下面我會分享我們在多模態這個方面所做的事情,以及這些技術是怎麼樣幫助快手平臺獲得更好的用戶體驗和反饋的。

多模態技術如何實現更好的記錄

首先,多模態技術將實現更好的記錄。隨著智慧型手機的出現,每個人都可以用手機上攝像頭去記錄周圍的世界,用麥克風去存儲周圍的音頻信息;而在以前,生成視頻,尤其生成一些比較專業的視頻,都是導演幹的事情。但現在,我們通過手機就能夠做到,這裡面會有非常多的多模態技術研究來輔助人們更好地記錄。

我們希望整個記錄過程是更加便捷、個性化、有趣,同時也是普惠的,具體我將分別通過四個案例分享。

1、語音轉文字打造便捷字幕生成體驗

一個視頻裡,音頻部分對於整個視頻的信息傳遞是非常重要的。網上有很多帶有大量字幕的、以講述為主的視頻,這樣的視頻製作其實是一件很麻煩的事情,因為一個一個去輸入文字是很痛苦的,像過去在廣電系統專業工作室就需要很多用於字幕編輯的工具軟體。而如果我們通過語音識別技術,把語音直接轉成文字,就可以很輕鬆地通過手機編輯生成一個帶字幕視頻。

2、語音合成實現個性化配音

另外一個技術叫做個性化配音,假如在一個視頻中,你不喜歡聽男性配音,而希望聽到由一位女士配音,我們就可以通過語音合成技術滿足個性化的訴求。

語音識別及合成技術都會使我們記錄的過程變得更加便捷、有趣,但這兩個技術在做視覺或者多媒體的圈子裡面關注度不是特別高,只是偶爾會在做語音的圈子裡去聊這些問題。包括在語音圈子裡面,語音識別和合成現在往往是兩波人在做。

隨著深度學習技術的出現,語音識別和合成這兩個問題其實在某種程度上是非常對稱的,因為語音識別是從語音到文字,語音合成是從文字到語音。語音識別的時候,我們提取一些聲學的特徵,經過編碼器或者 Attention 的機制,實現從語音到文字的轉化;語音合成的技術和算法,其實也涉及編碼器或者 Attention 的機制,二者形成了比較對稱的網絡。所以我們把語音識別和合成看成是一個模態轉換的特例,從神經網絡建模角度來看,是一個比較一致、容易解決的問題。

具體神經網絡在設計的時候,雖然二者內容機制其實還是有一些不同,但更大的趨勢是這裡面將來會有更多的趨同,因為我們知道隨著相關算法的發展,計算一定是朝著一個更加簡化,更加統一的方向發展。就像深度學習的出現,其實就是通過計算的方式取代了手工來獲取有效的特徵。多模態的轉換領域裡面也出現了這樣的特點,這是一件非常有意思的事情。

3、根據視頻內容自動生成音樂

音樂也是短視頻非常重要的一部分,有錄視頻經驗的同學可以感受到,為一個場景配合適的音樂是一個很難的事情。過去,有不少用戶為了與音樂節拍一致,努力配合音樂節奏拍攝,極大限制了拍攝的自由度。我們希望用戶可以隨意按照自己想要的節奏錄製,所以讓機器通過用戶拍攝的視頻內容,自動生成符合視頻節奏的音樂,這樣視頻畫面與音樂節奏就會更匹配、更一致。

音樂生成涉及很多具體的技術,我們也做了非常多的研究,其中一個問題是懂音樂的不懂計算機科學,懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好,需要要有做音樂和做 AI 的人一起集成創新,這方面我們也做了非常多的工作。

4、2D 圖像驅動 3D 建模實現 Animoji 效果

通過蘋果的發布會,大家應該都了解 Animoji 這項技術,iphoneX 有一個標誌性的功能,就是通過結構光攝像頭實現 Animoji,現在國內手機廠商也越來越多地採用結構光的方式去實現 Animoj。而快手是國內較早實現不使用結構光,只用 RGB 圖像信息就實現 Animoji 效果的企業。

用戶不必去花上萬元去買 iphoneX,只要用一個千元的安卓手機,就可在快手的產品上體驗 Animoji 的特效,從而能夠在不暴露臉部信息的同時展現細微的表情變化,例如微笑、單隻眼睛睜單隻眼睛閉等,讓原來一些羞於表演自己才藝的人,也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情,就是讓原來少數人才能用的技術,變得更普惠。

其實解決這樣一個問題是非常難的,因為即使是像蘋果這樣的公司,也是採用了結構光這樣配置額外硬體的方式來解決。想讓每一個用戶都能享受到最尖端的技術,快手面臨著硬體的約束,只能通過 2D 的 RGB 視覺信息對問題進行建模、求解,這裡面包括了像 Landmark 人臉關鍵點檢測、實時重建人臉三維模型等技術,把 2D 和 3D 兩種不同模態的信息做建模、做對齊。

我們也能看到現在市場上可能有一些小型的 APP 在做類似的事情,但體驗很差,而我們的整體體驗還是非常好非常流暢的,這也需要歸功於深度神經網絡模型的量化,通過壓縮和加速解決手機性能問題,可適配任意機型。

多模態技術如何實現精準理解視頻內容

剛才我講的是我們多模態技術怎樣去幫助用戶更好地記錄,我們同時也希望通過一個更好的分享機制,讓用戶發布的視頻能夠被更多感興趣的人看到。這也涉及視頻推薦裡面多模態的一些問題。

對視頻內容的理解其實是非常難的,這個裡面我做了兩個比較有意思的事情。

第一,我們強調音頻和視覺的多模態綜合的建模,而不是僅僅是單獨的視覺或者音頻,視覺和聽覺兩種媒體的融合,會是未來一個非常重要的事情。

第二,在工業界做的事情和在學術界做的事情有很大不同,我們有非常多的用戶數據,這些用戶數據是不在傳統多媒體內容研究範疇裡面的,但是工業界可以很好地利用這些數據,更好地做內容理解。

給大家舉個例子,一個男子表演口技的視頻中,如果關閉聲音,僅憑畫面信息,我們並不知道他是在做什麼,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,你可能無法獲得真實的信息。我們對世界的理解一定是多模態的理解,而不僅僅是視覺的理解。

像這樣的視頻在快手資料庫中有 70 億,想要理解這麼多的視頻內容,必須藉助多模態技術。所以我們在這方面也做了非常多的工作,從文本、視覺、聽覺角度去做了很多單模態的建模,包括多模態的綜合建模、有序與無序,以及多模態特徵之間怎樣進行異構的建聯,在很多任務內部的分類上也做了改進。

第二點需要強調的是,像 ImageNET 等很多的學術界研究內容理解的任務有非常好的標註數據集,但是這個數據集對於工業界來說還是太小,且多樣性不夠。我們平臺每天有 1.3 億多用戶以及超過 150 億次的視頻播放,這個數據是非常大的。如果有 150 億的標註數據,做算法就會有很大的幫助,但是現實上是不具備的。

那怎樣將研究分析技術與海量數據更好地做到兩者的融合呢?我們通過融合行為數據和內容數據,進行綜合建模,同樣大小的人工標註量,利用海量的用戶行為數據,能夠獲得比純內容模型更好的性能,對視頻有了一個更好的理解,進而在多媒體內容的理解和分析方面的算法研究有了非常大的進展,這就使我們在工業界和傳統學術界做這個事情時會更有優勢。

未來多模態研究的熱點:特徵表達與特徵對齊

總結一下,多模態內容解決的問題裡面涉及一些模態的轉化,比如怎樣通過 2D 圖像驅動 3D,怎樣通過語音生成文本或者通過文本生成語音,怎樣通過視覺驅動音樂。另外一個應用是我們怎樣通過融合更多信息來驅動內容的理解,其實都是一個多模態的問題。在學術界有很多研究還是停留在單模態,但我個人認為未來多模態會成為更有價值的研究方向。

多模態研究會有兩個難點或者說熱點:

第一是多模態的特徵表達,也就是在多模態研究框架下怎樣設計單模態的特徵,這是一個非常重要的問題。

第二是多模態特徵之間如何對齊,也就是有沒有更好的算法對視覺、聽覺和行為的部分進行統一的建模,這是未來的一個熱點。

幾個總結

第一,多模態未來會持續帶來更新的人機互動方式,比如我們剛才講的 Animoji 技術,其實它帶來的是一種可以通過人臉控制手機自動生成 Avatar(虛擬動畫)的體驗。原來實現這些效果,需要在好萊塢專門設一個特效室來實現這一點,而現在普通用戶都能享受這樣的技術,所以人機互動會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

第二,我認為多模態技術會帶來新的內容形態,原來接入信息更多是從文本、頁面中獲得,現在有視頻,未來可能還會有 AR 或者其它的形式。我覺得多模態 AR 很重要的一點就是強調沉浸感,這種沉浸感其實是通過聽覺和視覺綜合作用才能產生的。

第三,我認為多模態亟需新的算法和大型的數據,因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講,需要海量的數據才能解決好這個問題,因為現在深度學習、內容理解的成果,某種意義上是監督學習的成果,有足夠的樣本、算力,所以現在的算法能力基本上還停留在對算力和數據有著非常大要求的階段。而多模態的大型數據是非常難建的,而且多模態解的空間是更大的。因為一個模態解的空間是 n,另外一個是 m,它最後是一個乘積、一個指數級的變化,所以數據集要多大才足夠是一個很難的這個問題,可能需要新的算法來對這個問題進行建模。

關於快手多媒體內容理解部門

快手多媒體內容理解部門(Multimedia Understanding)簡稱 MMU,團隊由近百名算法工程師、應用工程師構成,聚焦多媒體內容的理解與應用。在內容理解方面,MMU 主要通過對人臉、圖像、音樂、視頻四個維度實現對多媒體內容的感知,並融合感知內容和知識圖譜,實現對視頻高層語義及情感的理解,從而讓機器高效看懂海量內容。目前,多媒體內容理解部的核心技術服務於內容安全、原創保護、視頻創作、視頻推薦、視頻搜索及商業化等方面。

本文為機器之心報導,轉載請聯繫本公眾號獲得授權。

------------------------------------------------

相關焦點

  • 多模態神經導航技術在顱內腫瘤手術的應用進展
    多模態影像融合是通過強化各種成像方法的優勢,並將其融合建立出多模態影像,來了解病變組織與器官的各方面情況,得到更準確判斷,從而制定更合理化治療方案。而以多模態影像融合為基礎的神經導航,可增強組織定位效果,優化個體化治療,大大縮減手術時間。本綜述將著重探討多模態神經導航在經鼻顱底腫瘤手術和膠質瘤切除術的應用,並總結國內外神經外科手術多模態神經導航的應用進展。
  • 多模態神經導航在膠質瘤手術治療的應用_神經膠質瘤_多模態影像...
    對於腦功能區膠質瘤,傳統手術不能很好地判定腫瘤與周圍結構的空間位置關係,從而導致病人術後出現較多併發症和神經功能缺失。近年來,隨著醫學科技發展,神經導航技術、多模態影像融合技術在神經外科手術得到廣泛應用,這些技術能夠幫助術者在術前制定更合適的手術計劃,術中更加精準地定位腫瘤。
  • 京東姚霆:推理能力,正是多模態技術未來亟需突破的瓶頸!
    可能會有人好奇,這背後的多模態技術在京東電商和物流場景中具體是如何實現的,多模態技術在電商和物流中還有哪些熱門的落地應用,多模態技術本身當前發展到哪一步了,目前發展遇到了哪些瓶頸
  • 再獲兩項行業大獎,未來機器人受機器人產業界高度認可!
    518智能裝備在線訊:在12月26日舉辦的2020深圳機器人創新與發展論壇暨2020深圳機器人年度頒獎典禮上,未來機器人再度獲得機器人產業界的高度認可,成為機器人領域優秀企業及領袖人物的標杆,獲得「2020深圳機器人優秀應用案例獎」,創始人兼CEO李陸洋榮獲「2020深圳機器人新銳人物獎」。
  • 多模態數據融合:方法、挑戰和展望
    作者將重點放在使用多種儀器、測量設備或採集技術觀察現象或系統的設置上。在這種情況下,每個採集框架被表示為一個模態,並且與一個數據集相關聯。整個設置,其中一個人可以訪問從多個模態獲得的數據,被稱為多模態。多模態的一個關鍵特性是互補性,也就是說,每一種模態都給整體帶來某種類型的附加值,而這種附加值是不能從設置中的任何其他模態中推導或獲得的。
  • 多模態磁共振技術在頸部淋巴結定性診斷中的臨床應用研究
    多模態磁共振技術在頸部淋巴結定性診斷中的臨床應用研究
  • 王海峰出席CCHI2018 深度解析「多模態深度語義理解」
    百度大腦的演進,從基礎技術積累,到建立完整的技術體系,再到核心技術進入多模態深度語義理解階段,同時伴隨著百度多年的業務實踐和AI能力的全面開放。王海峰指出,AI技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,具備「多模態深度語義理解」能力的百度大腦通過多技術融合,能讓機器對客觀世界有更深層認知,從而更好的支撐應用。
  • 聚焦多模態自然語言處理等AI技術,京東智聯雲亮相NLPCC 2020
    在本次國際自然語言處理與中文計算會議 (NLPCC 2020)上,  京東智聯雲舉辦了第一屆「多模態自然語言處理研討會」。該研討會邀請了多位學術大咖進行學術分享,吸引了自然語言處理、多模態、圖像處理等多領域眾多學者參與。會中,各位學者就跨語言跨模態信息處理、多模態預訓練、AI與藝術、視覺與語言交互、多模態對話系統等領域的研究熱點和技術應用展開討論,反響熱烈。
  • 百度王海峰出席中國認知計算和混合智能學術大會 深度解析「多模態...
    百度大腦是百度AI技術多年積累和業務實踐的集大成,包括視覺、語音、自然語言處理、知識圖譜、深度學習等AI核心技術和AI開放平臺,對內支持百度所有業務,對外全方位開放,助力合作夥伴和開發者,加速AI技術落地應用,賦能各行各業轉型升級。百度大腦的演進,從基礎技術積累,到建立完整的技術體系,再到核心技術進入多模態深度語義理解階段,同時伴隨著百度多年的業務實踐和AI能力的全面開放。
  • 愛奇藝攜手ACM MM舉辦2019"多模態人物識別競賽"
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 愛奇藝攜手ACM MM舉辦2019「多模態人物識別競賽」
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 模態分析方法簡介:實模態和復模態,及實模態提取技術
    按照模態參數(主要指模態頻率及模態向量)是實數還是複數,模態可以分為實模態和復模態。
  • 海水淡化新技術的應用和展望
    元水科技(北京)有限公司安屹立總經理近年來,由於氣候的異常變化導致水資源短缺,沿海經濟發展和人口急劇增長及工業飛速發展造成供水壓力等,海水淡化因其獨特優勢引起愈來越多關注。
  • 多模態生物識別成趨勢,指靜脈識別優勢顯著
    近年人臉識別、虹膜識別、指靜脈識別技術有明顯進步,也不斷有廣泛的應用。生物識別技術的問題它不是一個獨立性的問題,業內已經在應用一些填補漏洞的技術模式,比如多模態生物識別技術,正是意識到人民對於公共安全甚至個人私密安全的高要求,才有必要在單一生物識別技術或產品的基礎上,增加另一種或多種來提升生物識別應用的安全性。
  • 星環科技孫元浩分享AI對下一代大數據技術發展方向的四大影響
    與北京郵電大學計算機學院杜軍平教授、同濟大學副校長蔣昌俊教授、華東師範大學副校長周傲英教授、歐洲科學院院士、德國科學與工程院院士Gerhard Weikum教授等國內外學術界和產業界專家學者就人工智慧數據現在與未來進行了深入交流與研討,吸引了超過41萬人次在線駐足觀看。
  • 多模態分子影像的研究進展
    多模態分子影像中的分子探針能同時進行多種方式的顯像,克服了單一顯像方式的不足,實現了優勢互補,拓寬了分子影像技術的應用範圍。多模態分子顯像分為直接顯像和間接顯像,均需構建相應的分子探針。直接顯像指標記探針直接與目標靶特異性結合達到顯像的目的,直接顯像的多模態探針需要針對一個目標靶向蛋白連接不同的顯像功能基團,此方法需要對每一個靶構建相應的探針,且受到偶聯位點數目的限制。
  • 追一科技多模態數字人入選深圳戰略性新興產業扶持計劃
    追一科技多模態人機互動虛擬數字人產業化項目入選扶持計劃,並作為數字經濟產業領域項目,在核心算法研究、工程化和架構系統研發、產品個性化開發等方面開展重點創新,推進產業化發展。多模態人機互動技術是人工智慧3大技術領域: 語音、語義、和視覺融合發展的產物,數字人是該項技術的典型應用。
  • 多模態神經影像學在癲癇網絡中的研究進展
    近年來隨著影像學技術的不斷發展,其影像質量和成像方法得到極大提高,但單_模態的成像方法所提供的信息較片面,因此限制了其在臨床中的應用;而多模態神經影像學是將不同模態的成像方法組合,避免了組織解析度和空間解析度較低的缺點,最大限度的發掘各種模態提供的影像學信息,得到正常或病變組織更豐富的信息
  • 深圳戰略新興產業扶持計劃公布:追一科技多模態數字人入選
    追一科技多模態人機互動虛擬數字人產業化項目入選扶持計劃,並作為數字經濟產業領域項目,在核心算法研究、工程化和架構系統研發、產品個性化開發等方面開展重點創新,推進產業化發展。多模態人機互動技術是人工智慧3大技術領域: 語音、語義、和視覺融合發展的產物,數字人是該項技術的典型應用。