12月19日至20日,由騰訊主辦的年度技術盛會2020Techo Park開發者大會於北京順利召開。本次大會邀請了200多位海內外專家和和數千位參會者就人工智慧、多媒體等前沿技術話題展開交流。在視頻通信雲分論壇上,騰訊多媒體實驗室總監李松南進行了《智媒-多模態與內容生產》的主題分享。
騰訊多媒體實驗室總監 李松南
智慧媒體是指用人工智慧技術重構新聞信息生產與傳播全流程的媒體,由智能媒體、智慧媒體和智庫媒體三部分構成。近年來,以主流媒體機構為代表的各媒體、企業等積極尋求媒體智慧化的演進策略,圍繞媒體信息採集、媒體內容生產等方面,對智慧媒體的發展路徑做出了一系列探索。日漸成熟的5G、人工智慧、雲計算等新一代呈現技術,正逐漸成為支撐智慧媒體發展的核心技術群。
作為騰訊旗下頂尖科技實驗室,也是全球多媒體技術的領先者,智慧媒體是騰訊多媒體實驗室的重點研究領域之一。李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。
論壇上,李松南重點介紹了智慧媒體的內容生產。他指出,媒體內容包含視頻、圖片、聲音及文字等多種形態,綜合使用這些媒體形態的技術即為多模態技術。智慧媒體內容生產,就是通過人工智慧的方式,自動化、批量化的生產這些不同模態的內容。
李松南用「無中生有」、「浴火重生」和「鬥轉星移」三個詞來形容智慧媒體的內容生產方式。所謂「無中生有」是指從0到1,從無到有的創作過程,比如給AI模型一些隨機的噪聲信號,AI模型可以生成一首詩或一段鋼琴曲。浴火重生」即同模態間的轉化,比如輸入一段音樂,輸出也是一段音樂,只是彈奏這段音樂的樂器發聲了變化,比如從鋼琴變成了琵琶。 「鬥轉星移」是指不同模態之間的匹配或轉化,比如視頻與音樂之間的互相匹配,圖片與文字之間的相互轉化等。
截至目前,騰訊智媒的媒體內容生產能力已覆蓋12種技術能力,部分能力已在騰訊雲上的產品進行應用。李松南表示,未來,騰訊多媒體實驗室會持續深耕多媒體技術,服務好騰訊內部產品的同時,通過騰訊雲將技術進行輸出,為社會創造更多價值。
以下為李松南演講實錄:
大家好,我是騰訊多媒體實驗室的李松南,很高興能參加騰訊Techo大會,為大家匯報多媒體實驗室新近推出的AI媒體內容生產平臺-智媒。匯報的副標題是多模態與內容生產。首先我來介紹一下多模態與內容生產的關係。
大家都知道,媒體內容包含多種形態,比如視頻、圖片、聲音、文字等等。
做技術的同學把綜合使用這些媒體形態的技術,叫做多模態技術。AI媒體內容生產,就是通過人工智慧的方式,自動化、批量化的生產這些不同模態的內容。
這裡,為了方便記憶,我們把AI媒體內容生產方式,歸納為三種,並且給每種方式分別起了一個符號化的名字,分別是「無中生有」、「浴火重生」和「鬥轉星移」。
下面我來分別介紹一下這三種方式。
首先是「無中生有」,顧名思義,是一個從0到1,從無到有的創作過程:給AI模型一些隨機的噪聲信號,AI模型可以生成一首詩,或者一段鋼琴曲,或者一副高清的人臉圖片,或者一段視頻。
第二種方式,我們把它叫做「浴火重生」,是指同模態間的轉化,比如樂器轉換,輸入是一段音樂,輸出也是一段音樂,只是彈奏這段音樂的樂器發聲了變化,比如從鋼琴變成了琵琶。
最後一種方式,我們把它叫做「鬥轉星移」,是指不同模態之間的匹配或轉化,比如,視頻與音樂之間的互相匹配,或者圖像與文字之間的轉化。
第一種方式,實驗室做了一些初步的嘗試,正在尋找合適的落地場景,這裡就不介紹了。接下來我會針對第二和第三種內容生產方式給出一些更具體的例子。
第二種內容生產形式,我們把它叫做「浴火重生」,指的是相同模態內容之間的轉化。因為多媒體實驗室的主要工作在視頻上,所以下面我以視頻作為例子進行說明。算法的輸入是視頻,輸出也是視頻。
視頻處理就是這樣一個過程,輸入是一段視頻,輸出也是一段視頻,是經過處理後的一段視頻。這個處理過程可能包括了這段demo中展示的多種操作,比如減小壓縮失真、提高解析度、提高幀率、色彩增強等等;把高清的內容變成4K甚至8K,把普通的視頻變成HDR的視頻;甚至修復一段老電影,去掉老電影中經常出現的劃痕、雪花,讓老電影中的人物更清晰等等。視頻處理是實驗室長期投入的方向之一,我們正在與騰訊視頻雲、騰訊影業一起,通過畫質重生、智能影視等產品,向外部企業提供優質的視頻處理服務。
另外一個例子是視頻的橫屏轉豎屏。我們現在看到的很多短視頻內容都是豎屏的,而很多優質的視頻內容都是橫屏拍攝的。我們通過分析畫面的顯著區域,設計了一個自動的裁剪算法,將大量的橫屏視頻自動的轉換為豎屏視頻。這裡給出了幾個例子,大家可以看到,視頻的主體內容在豎屏畫面中都被保留住了,同時鏡頭的運動也很自然。我們通過大量的主觀實現,與市面上的類似產品進行了對比,證實了我們算法的優越性。
還有一個例子是視頻拆條與視頻集錦。這裡以足球視頻舉例,給算法一段90多分鐘的足球比賽視頻,算法可以分析出不同事件發生的時間段,比如角球事件、射門事件、進球事件等等,然後把這個長視頻拆分成很多一段的一段的短視頻。我們還可以把我們認為是精彩的短視頻拼接在一起,形成一個精彩集錦,比如,對於足球來說,我們可以把射門、慢動作、進球等事件拼接起來,自動生成一段針對一場足球比賽的精彩集錦。
第三種媒體內容生產形式,我們把它叫做「鬥轉星移」,指的是不同模態之間的匹配或者轉化。這張PPT裡給出的兩給例子,分別是圖片到文字、視頻到文字的轉化。左邊是一張圖片,裡面是一個商品,我們可以用算法生成對這個商品的描述,幫助商家更好的吸引顧客。右邊是一段遊戲視頻,我們可以用算法自動生成對遊戲中精彩事件的描述。
最後一個例子是視頻配樂,輸入一段短視頻,根據對這段視頻內容的分析,找到適合這段視頻的背景音樂。自己做過短視頻的朋友都知道,給短視頻找一段稱心如意的背景音樂很麻煩,而背景音樂推薦算法可以幫你節省很多時間。
好的,上述所有例子都來自多媒體實驗室的智媒平臺,這頁ppt裡例舉了智媒平臺目前提供的所有媒體內容生產能力,其中的一部分已經開始服務於騰訊雲上的產品。實驗室會通過騰訊雲,持續的對外輸入我們的技術能力。
感謝大家的聆聽!多媒體實驗室會持續深耕技術,服務好騰訊內部產品,同時通過騰訊雲將技術進行輸出,為社會創造更多價值。謝謝大家!
來源:中國網