多才多藝的「虛擬主播」,你了解多少?丨智言智語

2020-07-09 中科院之聲

編者按: 智顯未來,洞見新知。中科院之聲與中國科學院自動化研究所聯合開設「智言智語」科普專欄,為你介紹人工智慧相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智慧如何喚醒萬物,讓世界變得更美好 。

隨著近年來音視頻生成技術的不斷發展,「虛擬主播」逐漸走入人們視野。虛擬主播使用視頻生成技術和虛擬實境技術,實現2D/3D虛擬形象代替真人主播,並因其在虛擬客服、遠程會議、電影剪輯等現實應用場景中的重要作用而獲得了社會各界的廣泛關注。

目前,虛擬主播背後的音視頻生成技術能夠將文稿或者音頻自動轉化為播音視頻,實現了虛擬形象的多語種自動播報,並可以通過虛擬實境等技術展現出來,其中最廣為人所知的形象莫過於虛擬Youtuber。據不完全統計, 2018年末在YouTube網站上有超過8000名虛擬主播開展線上活動。

現實需求與技術挑戰

虛擬主播技術的關鍵在於如何控制虛擬形象的面部表情、嘴唇運動與播報聲音一致,且動作姿態符合場景,過程高效。從觀眾的直觀感受而言,一個好的虛擬主播,需要口型符合發音習慣,動作姿態符合場景,情緒表達符合說話語境。如果視頻或虛擬實境呈現的人表情僵硬、口型也無法與音頻對應,那麼觀眾就很難獲得舒適的觀看體驗。而從技術攻關角度而言,研究人員在直觀感受之外更加關注整體視頻或虛擬實境影像的清晰度以及銜接的連貫程度。這一直以來都是視頻生成以及虛擬實境任務中的挑戰和難點,亟需科研人員不斷探索更好的解決方案。

我國應用現狀及前景預測

我國在相關技術上的研究和應用進程啟動較早,2017年8月國內市場即出現了首批虛擬主播的身影,近兩年也呈現了較好的發展態勢。如今,在國內部分網站上活躍的虛擬主播粉絲數量已經達到幾十萬甚至百萬數量級。2018年11月, 搜狗與新華社聯合發布了以新華社新聞主播邱浩為原型的全球首個「AI合成主播」;2019年與2020年,升級的站立式虛擬主播「新小萌」、「新小薇」,連續在2019年和2020年全國兩會上崗擔播。

隨著技術的不斷發展,在未來「虛擬主播」不僅能在文化娛樂方向全面產能,在服務行業方面也能實現高效交互。除了目前應用較多的娛樂場景,虛擬主播的技術也可以在其他的場景得以應用,如電影配音編輯、抖音對口型視頻、全民K歌、虛擬客戶服務、虛擬形象視頻會議等。

隨著其應用場景的不斷豐富,一個優秀的虛擬主播需要展現出「多才多藝」:不僅是語音播報,還需要實現自然交互,以替代線上人工客服以及線下的智能終端產品,實現可視化數字人客服產品。同時,該技術未來也可與其他實現方式相結合,如虛擬實境、增強現實等,給用戶提供更沉浸的全方位體驗、更具有衝擊力的感官體驗、更加真實的人機互動體驗。

多才多藝的「虛擬主播」,你了解多少?丨智言智語

圖1 新華社「新小萌」

相關技術進展

虛擬主播的實現流程一般包括:視頻採集,數據處理,模型訓練,形象輸出,集成使用等。其具體環節涉及人臉關鍵點檢測、人臉特徵提取、人臉重建、深度學習、音視頻協同等技術,從而生成如同真實的播音員主持人一樣的虛擬形象。在該技術的萌芽階段,整個流程非常耗時耗力,並且只適用於特定單一任務,無法實現任意形象的調換。比如,如果希望得到一個歐巴馬形象的虛擬主播,那麼首先是需要採集大量歐巴馬演講數據,之後再進行數據清洗、數據處理、網絡訓練、性能調優等一系列流程,十分耗時耗力。

目前,該技術主要依賴三維模型或者生成對抗網絡實現。三維模型渲染方法一般需要較長時間模型渲染,且此類方法往往存在著生成視頻逼真程度低、嘴型不合理、數據豐富性差等問題,並不適宜大規模應用場景。基於生成對抗網絡的方法需要經過數據採集、網絡訓練、性能調優等流程。該過程不僅需要耗費大量計算與人力資源,而且還存在著學習樣本不足等問題,最終影響人工智慧合成視頻的真實程度。

近期,為了滿足更加廣泛和通用的需求,科研人員將虛擬主播技術更進一步地推向任意人物協同生成技術。這項技術旨在利用一段音頻與任意人物的形象生成該人物的說話視頻。該過程需要考慮從語音到嘴部運動的一到多映射問題,即同樣的說話內容對不同的人物會有不盡相同的嘴部運動,這取決於不同人的口腔結構差異、說話的習慣等。另外,低維度音頻與高維度視頻之間的數據差異也是該技術無法迴避的難點之一。

為解決上述問題,中科院自動化所智能感知與計算研究中心設計了一個非對稱式互信息估計器(圖2)。如果希望從音頻與一張靜態圖像就能夠生成自然、連貫、準確的虛擬主播視頻,那麼音頻在向視頻轉換的過程中的損耗應該儘可能的小、轉換的映射應該儘可能的準確,模型對不同人物說話方式也應該具有一定的想像力。為此,該方法提出了非對稱式的互信息估計模塊,以構建音視頻模態間的約束,最終使得合成視頻中人物的虛擬口型更加準確自然。

多才多藝的「虛擬主播」,你了解多少?丨智言智語

圖2 模型基本流程與結構

結語:

虛擬形象的優勢在於它比自然人狀態更加穩定,且無需休息,不會出現口誤。因此,虛擬主播可以把真人主播從較為簡單的(如固定文字的語音播報等)主持活動中解脫出來,使其能夠更加專注於對臨場應對能力要求較高或需要真人情感的複雜主持任務。由於目前虛擬主播技術缺乏語音情感化、內容理解語義化和個性化,其發展依然受到一定程度限制。相信隨著神經科學、心理學、計算機科學和人工智慧技術的發展和融合,未來虛擬主播一定可以為廣播電視事業和播音主持行業的發展注入新的活力,帶來新的變革。

作者:朱昊、宋林森、赫然

來源:中國科學院自動化研究所

相關焦點

  • 丨智言智語
    中科院之聲與中國科學院自動化研究所聯合開設「智言智語」科普專欄,為你介紹人工智慧相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智慧如何喚醒萬物,讓世界變得更美好 。 圖靈獎是美國計算機協會於1966年設立的,又叫"A.M.圖靈獎",專門獎勵那些對計算機事業作出重要貢獻的個人。
  • 丨智言智語
    中科院之聲與中國科學院自動化研究所聯合開設「智言智語」科普專欄,為你介紹人工智慧相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智慧如何喚醒萬物,讓世界變得更美好 。如果有人朝你扔過來一個球,通常你會怎麼辦?——當然是馬上把它接住。這個問題是不是很簡單?
  • 中國成虛擬主播「新藍海」
    本報記者 邢曉婧電商平臺京東、天貓等近期開始引入「虛擬主播」進行線上直播帶貨,而在金融、娛樂等其他領域,也出現虛擬主播的身影。虛擬主播(V Tuber)是指以動漫風格人物形象在網上發布視頻內容的主播,特點是用虛擬形象演繹真人,最終呈現在觀眾面前的是一個動漫造型卻又個性十足的主播形象。
  • B站有位虛擬主播,不少老司機都看過她的作品,現在還在畫漫畫
    最近這些年啊感覺各種虛擬偶像啊虛擬主播啊什麼Vtuber一類的漸漸多了起來,日本的有什麼愛醬啊mea啊阿誇啊啥的,國內也有什麼虛擬次元的小希小桃、默默醬一類的,嗨呀都好可愛啊。這些虛擬偶像們也是多才多藝啊,什麼唱歌啊跳舞的講段子啥的簡直不在話下,還有更厲害的,甚至武術啊牌九啊天文地理醫卜星象啥的都會一點,簡直厲害得飛起,今天我想和大家聊一聊的這位虛擬偶像,現在也在B站直播,哇她會的技能那可就厲害了,會畫漫畫!不少老司機都看過她的作品,現在她還連載著一部漫畫呢。
  • 數百萬日本人關注,為何虛擬主播這麼受歡迎
    絆愛目前是日本最流行的明星主播。這個身材養眼、青春靚的女孩穿著褶邊長筒襪,扎著粉色髮帶。但絆愛是一個完全虛擬的角色,背後看不見的女演員通過動作和聲音賦予了絆愛活靈活現的主播形象。「虛擬主播和普通動畫角色的區別在於,你可以相信它們確實存在,」總部位於東京的Activ8創始人大阪武史(Takeshi Osaka)說。「這種存在感是它們如此吸引人的一個重要原因。」Activ8避開了傳統動畫費時費力的製作過程,後者並不適合快節奏的YouTube視頻內容世界。
  • 虛擬主播「愛醬」與虛擬歌姬「初音未來」有什麼區別?
    如果「愛醬」或者「初音未來」在你心中是「公主殿下」、「老婆」、「愛豆」,不宜閱讀此文,傷腎!不是要聊她們長得不一樣;不是要聊她們走的偶像路線不一樣;也不是要聊她們的個性不一樣;下文類似於「解剖」,騎士們繞道走,勿噴。聊一下「愛醬」和「初音未來」在製作與運營上有何不同。
  • 桐生可可暫停活動後,holo開啟招募,準備培養新一批的虛擬主播
    正因如此,在眾多直播內容推出後,直播方式也是一直在改變,其中就有虛擬主播的出現。不過虛擬主播雖然形象是虛擬的,但背後的人也是真實存在,也是需要為自己的行為買單。而桐生可可自然也是如此。因此,桐生可可宣布暫停活動後,HOLO公司接下來的動作卻是開啟新的招募,準備培養新一批的虛擬主播。
  • 這梗常用來形容虛擬主播cp的關係……
    這梗常用來形容虛擬主播cp的關係……時間:2020-03-26 17:24   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:東京灣沸騰什麼意思什麼梗? 這梗常用來形容虛擬主播cp的關係 形容vtb(虛擬主播)cp的關係非常親密、甜蜜。 東京灣是日本 夏日祭地點(舉辦煙火大會的地方,穿和服、看煙花、告白的地標)。
  • 半分鐘可生成虛擬主播 百度大腦開放人像特效能力
    近日,百度大腦宣布全新開放互動娛樂、虛擬試妝、虛擬人、美業/健康四大人像特效應用場景能力。在人像特效虛擬試妝方面,首先,平臺基於物理渲染器,可以還原材料質感;第二,配套易用的素材製作工具,可零代碼生產2D貼紙素材。
  • 《海王星》新作聯動VTB絆愛,二次元遊戲或許是虛擬主播的新出路
    Vtuber,全稱Virtual YouTuber,翻譯過來是虛擬主播,一般意義上的虛擬主播指的是以原創的虛擬形象進行直播表演的播主,比如如今在國內大熱的Mea,阿誇等,從某種意義上來說,主機遊戲區的UP主Mr.Quin秦先生也可以算是中國國內最早的一批虛擬主播。
  • holo在B站發布動態,3名虛擬主播視頻將刪除,朵莉絲要求提前畢業
    畢竟該事件逐漸被大眾所熟知後,不但導致虛擬主播行業風評變差,而且跟桐生可可同公司的主播,更是需要承擔連帶責任。而通過最新消息可知,由於廣大網友不懈的「炎上行為」,所以桐生可可已經宣布停止活動。而且就連HOLO公司的B站動態,不僅三名虛擬主播的相關視頻將刪除,並且朵莉絲要求提前畢業。
  • 虎牙直播雲旅遊 虛擬主播「火神祝融」衡山陪你看日出
    2月27日6:30am虎牙虛擬主播「火神祝融」將帶領大家欣賞衡山景區,相傳「火神祝融」是南嶽衡山之神,聽「神仙」在直播間講過去的故事。高清攝像機推流直播衡山壯美風景,藍光畫質欣賞衡山雲海日出,最大程度還原南嶽最真實的自然之美,讓你在家也如同身臨其境。
  • 鬥魚主播小蘇菲發布單曲《空心》MV,完美演繹復古元素冷色調
    同時鬥魚直播旗下的主播們也是多才多藝,其中小蘇菲更被網友們譽為鬥魚音樂板塊最美膩的主播。當然啦,既然說她多才多藝自然要拿出真本事來,近期小蘇菲就發布了首支翻唱MV《空心》,一經推出短時間內播放量已突破百萬,接下來大家和小編一同前去瞧瞧這首MV究竟有何精彩吧!
  • 主播花樣「作死」,直播帶貨的100種「死法」,你了解嗎!
    明星主播直播時確實會有粉絲收看,但是願意付費買單的卻很少。 17、直播時diss品牌方 有主播在直播時全是事故,之前與商家說好的一個小時,最後就播了半個小時。主播直播過程中不看臺本不了解產品,還會說出「花這麼多錢買這麼貴的玩意不得送點禮物嗎」 的話來直接diss品牌方。
  • 在家中也能做實驗丨化學實驗中心開通虛擬仿真實驗平臺!
    《分析化學II》是面向化學系二年級本科生的雙語教學課程,為了更好地準備課程,主講教師王敏老師在課前就通過課程釘釘群向同學們發布了調查問卷,了解同學們的英語閱讀水平、網課使用工具、對教學內容的熟悉程度等。
  • 在家也能做實驗 浙大化學實驗中心開通虛擬仿真實驗平臺
    《分析化學II》是面向化學系二年級本科生的雙語教學課程,為了更好地準備課程,主講教師王敏老師在課前就通過課程釘釘群向同學們發布了調查問卷,了解同學們的英語閱讀水平、網課使用工具、對教學內容的熟悉程度等。
  • 抖音直播刷嘉年華多少錢 抖音主播禮物怎麼分成
    抖音平臺主播分成比例是怎麼算的呢?現在我們就一起去看看吧! 一個嘉年華是30000抖幣,折合人民幣是3000元 抖音直播分成比例介紹 1.對於大主播和小主播的計算方式自然是不同的,這個我們大家也都懂,因此小編在此主要給大家介紹一下我們普通用戶做主播的分成方式。
  • 見過遊戲+學霸的主播嗎?鬥魚主播乾物喵,帶你走進新世界的大門
    見過遊戲+學霸的主播嗎?鬥魚主播乾物喵,帶你走進新世界的大門 之前,大火的101少女成團可以說是引爆話題,裡面的少女或實力超群或顏值爆表,看的小編也是心動不已,但是小編最喜歡看的,還是鬥魚直播平臺這些遊戲女主播,就在最近小編閒逛鬥魚時,發現了蘿莉主播一枚,名為乾物喵
  • 從虛擬偶像到「網紅」VUP,變現狂歡下的浮士德交易
    文|網際網路深度點評如果把虛擬偶像對標一般的明星、偶像,那麼後續如雨後春筍般瘋狂竄出的VUP(虛擬主播)們就是如今的個人勢網紅、主播,宣誓著虛擬偶像網紅時代來臨。虎牙推出「虛擬歌手百萬buff出道計劃」,正式強推虛擬偶像。同時根據天眼查APP數據顯示,在9月27日,虛擬偶像企業萬像科技宣布完成由毅達資本領投的數千萬元Pre-A輪融資。
  • 探探直播主播收益怎麼算 探探主播收入在哪裡查有多少
    有多人在問,探探直播主播收益怎麼算?探探主播收入在哪裡查有多少?一起來看看吧。有多人在問,探探直播主播收益怎麼算?探探主播收入在哪裡查有多少?一起來看看吧。 【探探個人主播】 在探探直播裡個人主播只能拿到稅前35%,今日收益可在次日自行提現,並且還得交納個人所得稅,換算下來真是能夠讓主播拿到手的只有那稅後的28%左右。