覆蓋12種功能!騰訊多媒體實驗室推出智慧媒體內容生產平臺

2021-01-09 中國青年報

12月19日至20日,由騰訊主辦的年度技術盛會2020Techo Park開發者大會於北京順利召開。本次大會邀請了200多位海內外專家和和數千位參會者就人工智慧、多媒體等前沿技術話題展開交流。在視頻通信雲分論壇上,騰訊多媒體實驗室總監李松南進行了《智媒-多模態與內容生產》的主題分享。

騰訊多媒體實驗室總監 李松南

智慧媒體是指用人工智慧技術重構新聞信息生產與傳播全流程的媒體,由智能媒體、智慧媒體和智庫媒體三部分構成。近年來,以主流媒體機構為代表的各媒體、企業等積極尋求媒體智慧化的演進策略,圍繞媒體信息採集、媒體內容生產等方面,對智慧媒體的發展路徑做出了一系列探索。日漸成熟的5G、人工智慧、雲計算等新一代呈現技術,正逐漸成為支撐智慧媒體發展的核心技術群。

作為騰訊旗下頂尖科技實驗室,也是全球多媒體技術的領先者,智慧媒體是騰訊多媒體實驗室的重點研究領域之一。李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。

論壇上,李松南重點介紹了智慧媒體的內容生產。他指出,媒體內容包含視頻、圖片、聲音及文字等多種形態,綜合使用這些媒體形態的技術即為多模態技術。智慧媒體內容生產,就是通過人工智慧的方式,自動化、批量化的生產這些不同模態的內容。

李松南用「無中生有」、「浴火重生」和「鬥轉星移」三個詞來形容智慧媒體的內容生產方式。所謂「無中生有」是指從0到1,從無到有的創作過程,比如給AI模型一些隨機的噪聲信號,AI模型可以生成一首詩或一段鋼琴曲。浴火重生」即同模態間的轉化,比如輸入一段音樂,輸出也是一段音樂,只是彈奏這段音樂的樂器發聲了變化,比如從鋼琴變成了琵琶。 「鬥轉星移」是指不同模態之間的匹配或轉化,比如視頻與音樂之間的互相匹配,圖片與文字之間的相互轉化等。

截至目前,騰訊智媒的媒體內容生產能力已覆蓋12種技術能力,部分能力已在騰訊雲上的產品進行應用。李松南表示,未來,騰訊多媒體實驗室會持續深耕多媒體技術,服務好騰訊內部產品的同時,通過騰訊雲將技術進行輸出,為社會創造更多價值。

以下為李松南演講實錄:

大家好,我是騰訊多媒體實驗室的李松南,很高興能參加騰訊Techo大會,為大家匯報多媒體實驗室新近推出的AI媒體內容生產平臺-智媒。匯報的副標題是多模態與內容生產。首先我來介紹一下多模態與內容生產的關係。

大家都知道,媒體內容包含多種形態,比如視頻、圖片、聲音、文字等等。

做技術的同學把綜合使用這些媒體形態的技術,叫做多模態技術。AI媒體內容生產,就是通過人工智慧的方式,自動化、批量化的生產這些不同模態的內容。

這裡,為了方便記憶,我們把AI媒體內容生產方式,歸納為三種,並且給每種方式分別起了一個符號化的名字,分別是「無中生有」、「浴火重生」和「鬥轉星移」。

下面我來分別介紹一下這三種方式。

首先是「無中生有」,顧名思義,是一個從0到1,從無到有的創作過程:給AI模型一些隨機的噪聲信號,AI模型可以生成一首詩,或者一段鋼琴曲,或者一副高清的人臉圖片,或者一段視頻。

第二種方式,我們把它叫做「浴火重生」,是指同模態間的轉化,比如樂器轉換,輸入是一段音樂,輸出也是一段音樂,只是彈奏這段音樂的樂器發聲了變化,比如從鋼琴變成了琵琶。

最後一種方式,我們把它叫做「鬥轉星移」,是指不同模態之間的匹配或轉化,比如,視頻與音樂之間的互相匹配,或者圖像與文字之間的轉化。

第一種方式,實驗室做了一些初步的嘗試,正在尋找合適的落地場景,這裡就不介紹了。接下來我會針對第二和第三種內容生產方式給出一些更具體的例子。

第二種內容生產形式,我們把它叫做「浴火重生」,指的是相同模態內容之間的轉化。因為多媒體實驗室的主要工作在視頻上,所以下面我以視頻作為例子進行說明。算法的輸入是視頻,輸出也是視頻。

視頻處理就是這樣一個過程,輸入是一段視頻,輸出也是一段視頻,是經過處理後的一段視頻。這個處理過程可能包括了這段demo中展示的多種操作,比如減小壓縮失真、提高解析度、提高幀率、色彩增強等等;把高清的內容變成4K甚至8K,把普通的視頻變成HDR的視頻;甚至修復一段老電影,去掉老電影中經常出現的劃痕、雪花,讓老電影中的人物更清晰等等。視頻處理是實驗室長期投入的方向之一,我們正在與騰訊視頻雲、騰訊影業一起,通過畫質重生、智能影視等產品,向外部企業提供優質的視頻處理服務。

另外一個例子是視頻的橫屏轉豎屏。我們現在看到的很多短視頻內容都是豎屏的,而很多優質的視頻內容都是橫屏拍攝的。我們通過分析畫面的顯著區域,設計了一個自動的裁剪算法,將大量的橫屏視頻自動的轉換為豎屏視頻。這裡給出了幾個例子,大家可以看到,視頻的主體內容在豎屏畫面中都被保留住了,同時鏡頭的運動也很自然。我們通過大量的主觀實現,與市面上的類似產品進行了對比,證實了我們算法的優越性。

還有一個例子是視頻拆條與視頻集錦。這裡以足球視頻舉例,給算法一段90多分鐘的足球比賽視頻,算法可以分析出不同事件發生的時間段,比如角球事件、射門事件、進球事件等等,然後把這個長視頻拆分成很多一段的一段的短視頻。我們還可以把我們認為是精彩的短視頻拼接在一起,形成一個精彩集錦,比如,對於足球來說,我們可以把射門、慢動作、進球等事件拼接起來,自動生成一段針對一場足球比賽的精彩集錦。

第三種媒體內容生產形式,我們把它叫做「鬥轉星移」,指的是不同模態之間的匹配或者轉化。這張PPT裡給出的兩給例子,分別是圖片到文字、視頻到文字的轉化。左邊是一張圖片,裡面是一個商品,我們可以用算法生成對這個商品的描述,幫助商家更好的吸引顧客。右邊是一段遊戲視頻,我們可以用算法自動生成對遊戲中精彩事件的描述。

最後一個例子是視頻配樂,輸入一段短視頻,根據對這段視頻內容的分析,找到適合這段視頻的背景音樂。自己做過短視頻的朋友都知道,給短視頻找一段稱心如意的背景音樂很麻煩,而背景音樂推薦算法可以幫你節省很多時間。

好的,上述所有例子都來自多媒體實驗室的智媒平臺,這頁ppt裡例舉了智媒平臺目前提供的所有媒體內容生產能力,其中的一部分已經開始服務於騰訊雲上的產品。實驗室會通過騰訊雲,持續的對外輸入我們的技術能力。

感謝大家的聆聽!多媒體實驗室會持續深耕技術,服務好騰訊內部產品,同時通過騰訊雲將技術進行輸出,為社會創造更多價值。謝謝大家!

來源:中國網

相關焦點

  • 騰訊多媒體實驗室受邀參加Audiokinetic Wwise全球巡演會,展示遊戲...
    近日,騰訊多媒體實驗室受邀參加Audiokinetic Wwise全球巡演會。巡演會上,騰訊多媒體實驗室團隊展示了遊戲多媒體引擎(GME)聯合解決方案。該解決方案由騰訊雲GME團隊、騰訊多媒體實驗室和Audiokinetic聯合打造,面向遊戲開發者提供遊戲內語音通信服務,提供端到端、低延遲、高質量、高穩定、可彈性擴容、性價比高的遊戲語音通信服務,接入門檻低,可幫助遊戲開發者在多種遊戲場景下快速搭建實時語音服務,助力遊戲社交化。
  • 騰訊多媒體實驗室天籟AI音頻技術「破圈」背後的「密碼」
    作為多媒體技術領域的盛會,大會聚焦在音頻、視頻、圖像等技術的最新探索與應用實踐,覆蓋教育、娛樂、醫療、安防、交通、製造、旅遊、電商、金融、社交、遊戲、智能設備、IC等行業領域。會上,騰訊多媒體實驗室專家研究員肖瑋進行了《騰訊天籟:「下行最後一釐米」 音頻體驗提升》主題分享,重點介紹了騰訊天籟如何將經典信號處理技術與深度學習進行有機融合,圍繞網絡下行終端,提升音頻體驗。
  • 騰訊智慧校園功能介紹
    「騰訊智慧校園」是騰訊公司面向各類學校提供的移動端校園智慧生態圈解決方案。騰訊的使命是做連接器,騰訊智慧校園就是要結合內外部優質資源,為學校各方主體提供各場景中的應用功能。最終實現學校與移動網際網路的深度融合,將學校的獨立個體連接成智慧的網絡。
  • 從內容生產、內容平臺再到算法,一文看清網際網路媒體的「食物鏈」
    當然,所有這些新媒體產品,都是以傳統媒體的方式推出的新媒體產品,肯萊勒本人並不諱言這一點。他是一個十分堅定的內容信仰者,只是認為要不斷創新地做內容。邱兵、肯萊勒們的成功,有一半的原因是,他們運行在新興的面對海量用戶的網際網路技術平臺上(我們接下去要討論的另一種模式的媒體)。他們收穫的主要是「平臺紅利」,而不是「內容紅利」,是在新技術平臺上做內容。
  • QQ音樂和全民K歌雙向聯動,引領「智慧·聲態」時代
    同時,蔚來創始人兼董事長李斌,Sonos大中華區戰略合作副總裁張維明,海信多媒體集團副總裁馬小航,樂徽科技投資董事長,全民K歌店負責人嚴秋樸等來自各界的大咖匯聚一堂,從內容、硬體、智能等多個角度暢談在線音樂背後的發展及未來。 國內外近 40 家重要媒體及 300 多名音樂產業人士到場,共同見證了QQ音樂及全民K歌領航的「智慧聲態」時代的起航。
  • 武漢大學-騰訊大數據與健康保障聯合實驗室揭牌
    11月13日,由武漢大學社會保障研究中心、騰訊醫療健康事業部聯合舉辦的首屆「珞珈-騰訊醫保創新論壇」在漢舉行。論壇上,雙方共同揭牌「大數據與健康保障聯合實驗室」,並聯合發布了《科技向善,智享醫保——智慧醫療保障藍皮書》,從實踐與應用等多個維度,為智慧醫保建設參與者提供了思路,以助推健康中國全民醫療保障的實現。
  • 騰訊聯合廣州地鐵發布全國首個軌道交通智慧大腦
    9月9日,智慧地鐵示範車站在廣州地鐵三號線、APM線廣州塔站和二十一號線天河智慧城站正式上線。同時,廣州地鐵與騰訊公司聯合推出全國首個軌道交通智慧大腦——穗騰OS。穗騰OS是基於城市軌道交通設計的作業系統,由廣州地鐵與騰訊公司成立的聯合實驗室推出,是全面支撐數位化軌道交通、無人化運營管理、智能化運維控制、場景化應用服務的一站式解決方案,旨在成為軌道交通智能化運行的「超級大腦」。
  • 字節跳動VS騰訊:世紀之戰
    從產品及技術方面,騰訊教育也已經搭建了智慧教育數據中心、智慧課堂、智聆口語評測、優圖速算題目批改、微信校園卡、微信校園碼、騰訊新工科實驗室、新工科認證、教研雲九條產品線。騰訊高級執行副總裁湯道生曾表示,騰訊希望做好教育產業智慧化升級的「數字助手」。通過智能算法多維解析內容,建立知識圖譜,提升知識延展性。
  • 騰訊雲公布智慧社區標準化解決方案 智慧社區成巨頭「角力場」
    騰訊的摸索智慧社區是一個門檻極高的行業,同時,這個行業又極為分散。據中國物業管理協會數據,2017年全國的物業服務企業共計11.8萬家。「中國有11萬家物業公司,它其實需要一個平臺型的產品,或者是說比較客觀、中立的第三方平臺來連接這些物業公司或者連接這些TO B的社區服務角色。所以我們就選擇在這個場景下去做。到2017年,我們正式推出海納。」
  • 新奧特(北京)視頻技術有限公司:領先的數字媒體內容生產及運營的...
    系統具備在全臺服務交換總線(ESB)和媒體交換總線(EMB)平臺環境下,與節目生產管理系統、統一用戶認證系統、新址媒資系統、演播室系統和審片系統等主要系統之間實現業務的互聯互通及媒體數據交互的功能。 新奧特中標的國際視通UGC項目將為媒體機構之間提供一個便捷、安全、可靠的內容傳輸平臺,為內容的快速發現、快速分享、快速報導提供一個新型工藝系統。項目將實現: a 面向全球的PC、安卓、IOS、伺服器等各種不同客戶端,為用戶提供媒體內容的攝錄、上傳、直播等功能。 b 構建全媒體雲處理系統,雲端完成稿件的傳輸、存儲、轉碼、審核等功能。
  • Discovery宣布推出流媒體平臺:下月在美上線
    據外媒報導, 擁有Discovery Channel(探索頻道)、Food Network(美食頻道)、Animal Planet(動物星球頻道)等眾多頻道的Discovery公司正在推出自己的流媒體服務Discovery +。 據悉,Discovery+將於1月4日在美國推出,它將提供兩種服務選擇:一種有廣告,另一種則沒有。
  • 演示文檔分享平臺SlideShare增視頻分享功能
    騰訊科技訊(編譯/巧克力)北京時間5月9日消息,據國外媒體報導,演示文檔共享平臺SlideShare近日推出多媒體服務,用戶可上傳和分享視頻文件。SlideShare同時還是一個社交和發掘內容的平臺,用戶可以找到相關的內容,還可以讓使用者與擁有類似興趣愛好的其他使用者建立聯繫。現在在SlideShare,職業人士可以上傳和分享關於他們談話、宣傳短片、介紹短片以及網上研討會的視頻。目前,SlideShare用戶每月只能上傳五個視頻(沒有視頻長短限制)。
  • 內容科技:未來傳媒的全新生產力
    可以說,貫穿於騰訊新聞ConTech的主線思路是人機協同,人的經驗、智慧賦能給機器,用機器放大人的智慧,解放生產力,釋放創造力。[1]其中,青雲智能內容生產引擎的智能選配圖系統,每日配圖數量5.5萬次;智能糾錯模型,每日接到101萬篇文章糾錯需求;智能寫作系統,年寫作2.4億字,年輸出稿件107萬篇。
  • 天天德州WSOP電咖有料媒體賽落幕 頂級荷官智慧博弈
    自《天天德州》推出MTT賽事以來,德州撲克圈子裡就掀起了自建MTT賽事的新風潮。11月1日,電咖有料聯手10年荷官Yukei新組織一場雲集100人以上的WSOP電咖有料媒體賽,來自海內外的知名荷官和裁判在此展開了角逐,贏取了1600萬的豪華金幣。
  • 騰訊優圖:做產業網際網路時代的π型實驗室
    12月30日,騰訊優圖2020年度溝通會於海南正式舉辦,騰訊優圖實驗室總經理、騰訊雲副總裁吳運聲、騰訊優圖實驗室副總經理黃飛躍、騰訊優圖實驗室總監吳永堅、騰訊優圖實驗室總監任博,騰訊研究院高級研究員徐思彥等大咖出席了活動,並就2020年的業務進展和人工智慧趨勢做了完整的解讀和分享。
  • 騰訊超級大腦:數字世界的作業系統和下一個十年的答案
    超級大腦的點、線、面要讀懂超級大腦之於騰訊,甚至說是整個整個網際網路的價值,還是要先來回顧下騰訊雲推出超級大腦之前的迭代過程。2010年騰訊雲正式對外提供雲服務的時候,距離騰訊公司的成立已經過去12個年頭,業務覆蓋社交、遊戲、電商等等,幾乎滲透到了網際網路的每一個賽道。超級大腦的出現距離騰訊雲的誕生又過去了八年,梳理其中的進化邏輯,或許可以歸結為由點到線再到面的過渡。
  • 首屆中國智慧交通大會在京舉行
    首艘無人貨船項目「筋鬥雲」也於去年12月在珠海啟動。客貨運輸服務創新應用也取得了顯著成效。網約車、共享單車、12306鐵路聯網售票、航空電子客票、海運EDI、物流信息平臺等智慧交通項目和系統的服務規模和發展水平均居世界前列。對網約車、共享單車的世界治理難題,還貢獻了中國智慧和中國方案,讓公眾獲得了實實在在的福利。此外,行業協同治理應用正在深入推進。
  • 廣東第一間高中物理智慧實驗室建成使用
    現場會上舉行了「廣州市鐵一中學高中物理智慧實驗室(學業水平考室)」落成揭牌儀式,我校在市教育裝備中心的關心下建成了廣東省第一間投入使用,並具有學業水平考試功能的物理智慧實驗室。
  • 拍一拍、小商店,為什麼這些微信小功能竟然被騰訊財報點名?
    而在這場產業網際網路大轉身的進程中,已經搭建起承載多重能力的數位化生態的微信用戶數還在上升,微信與WeChat的MAU數為12. 06 億人,環比增長0.3%。作為數位化時代的"新生產工具",微信在財報內被屢次提及一點也不意外,但很多微信的小功能本次也在代表大騰訊整個業務發展的財報中出現,頗讓人意外,比如拍一拍。
  • 專訪騰訊雲機器學習平臺技術負責人:揭秘騰訊深度學習平臺DI-X背後...
    隨著DI-X深度學習平臺已經上線,騰訊雲在人工智慧領域產品線已經覆蓋了IaaS基礎設施、AI平臺服務、AI基礎服務、AI應用服務以及垂直解決方案。那麼最新推出的DI-X和騰訊去年開源的大數據框架Angel以及Mariana究竟有何聯繫?和其它平臺相比,DI-X又有何特點呢?為此,雷鋒網採訪了騰訊T4專家、騰訊雲機器學習平臺技術負責人Andy。