搜狗發布全球首位 3D AI 主播,背後分身技術有玄機

2020-12-18 騰訊網

作者 | 陳利鑫

頭圖 | CSDN 下載自東方 IC

又是一年兩會時間,平時關注新聞的朋友們可能會發現,新華社關於兩會的報導,進行消息播送的主持人隊伍加入了一位漂亮小姐姐,而這位小姐姐竟然不是真人,而是一個 3D 數字人!

眼前這個神奇的虛擬人,完全可以滿足人們對於新聞消息的接收需求了。這不禁讓人好奇,這個 3D 虛擬人是什麼來頭?

原來這位 3D 數字人名叫「新小微」,是搜狗聯合新華社推出的全球首位 3D AI 合成主播。以新華社記者趙琬微為原型,由人工智慧「克隆」而成。

看這細緻入微的表情,豐富的動作,細緻的肌膚紋理和瞬間變化的服裝,堪比大製作電影中的特效人物。

3D AI 合成主播有哪些特性?

事實上,這已經不是搜狗推出的第一位合成主播了,早在 2018 年 11 月的網際網路大會上,搜狗發布全球首個 2D AI 合成主播時就曾引起過巨大的轟動。不到兩年,搜狗再次推出 3D AI 合成主播,使其AI合成主播品牌下形成2D和3D兩條技術線來並行發展,各顯所長。

那3D 「新小微」究竟有哪些特點呢?

1) 超寫實的高度逼真:

高度還原真人髮膚,在特寫鏡頭下,連頭髮絲和皮膚毛孔都清晰可見;

2) 更高可塑性,更強交互能力、可適用更多空間:

高立體感和層次感:支持多機位景深、支持多樣化精微表情播報,播報形態可通過360°全方位呈現;

高靈活性:可走動、轉身、可擺出各種複雜動作和姿態;

基於「微模塊化」特性,其表情、髮型、服飾均能根據不同新聞和場景變換。

3)基於 AI 算法實時驅動:只需輸入文本內容,「新小微」就能根據語義實時播報新聞,其表情唇動、肢體動作和語音表達高度契合、自然逼真。

這也是搜狗 3D 合成 AI 區別於電影和遊戲特效 CG 技術的主要區別,電影合成技術背後要耗費巨大的人力、財力和時間成本,而搜狗 3D AI合成主播根據輸入的文本幾乎做到了實時生成視頻或視頻流。

開創 3D AI 合成主播,背後實現技術有玄機

推出3D 版 AI 合成主播,靠的是搜狗分身技術的不斷突破和創新。下面,我們來看一下 3D AI 合成主播的技術實現細節與步驟。

1) 首先,是基於真人原型採集海量數據:

搜狗搜狗 AI 交互技術部總經理陳偉解釋,要想實現對模型更加逼真的驅動,主要通過兩部分來實現,第一部分在於在採集過程中使用的設備是否能捕捉到更精細的數據,第二部分是做到採集數據後的精準標註,這相當於在整個採集端把數據生產出來。

為了打造「新小微」,真人趙琬微戴著數據採集頭盔,幾百個攝像頭對其身體各個部位進行 360 度全方位「打點」掃描,採集每一處細節,並對其多種形態的表情和動作進行細緻入微地捕捉記錄,這才有了逼真的既視感。

2) 其次,採用了行業領先的掃描還原算法,以及面部肌肉驅動、表情肢體捕捉等技術,生成高逼真度的 3D 數字人模型。

實現逼真的 3D 效果,關鍵還在於搜狗在採集過程中設計的一套完整的人體和面部參數。之前的卡通模型多基於 Blend shape(融合變形)方式,但是「新小微」的模型創建更多地用到了肌肉模型,因為肌肉模型更加符合人的生理結構,不同參數之間可以更好地協同,因此,對建模參數進行優化之後,最後的運動效果會更加真實。

「新小微」的 3D 模型具體是如何構建的呢?搜狗技術專家解釋到,原來這需要先把靜態模型建起來,然後再綁定一下。「新小微」最逼真的部分就是她的臉,搜狗採用了業界最領先的籠式採集裝置,裡面分布 100 多個攝像頭同時拍照,相當於全方位捕捉人臉信息,再通過經驗豐富的動畫師對結果進行細化,對著寫實的圖片,把成品模型建出來。這是建模人頭的部分。

另外,搜狗對「新小微」的人頭、身體採用了肌肉模型綁定,這種方法下需要先構建骨骼模型,然後在骨骼上附著肌肉,再在肌肉上附著表皮,是一個聯動的過程。肌肉模型更符合動力學的特徵,比如人在跑的時候,肌肉運動時,會帶著皮膚做一些微小的動作,之前動畫中常用的 Blend shape 方案可以實現整體的動作,但難以把細微的動作表現出來。這是骨骼綁定模型的優勢。

對於「新小微」,不管是面部表情還是身體動作的採集,搜狗都採用了業界最領先的技術,並對數據進行專業質檢及精修,耗費了很多人力,最終獲得優質的的學習數據,直接驅動與真人相比差異變小。

3) 然後,通過搜狗分身的多模態生成算法對 3D 數字人模型進行實時驅動、渲染,使其面部表情唇動、肢體動作和語言表達能力實現了高度契合。

當前,大部分「能動」的 3D 數字人主要是靠真人驅動,而」新小微」播報新聞,卻是文本輸入,實時「翻譯」成語音,也就是說輸入文本,經過搜狗的度學習多模態建模方法,可以實時將文本轉化為語音,並且實時匹配面部表情和動作。

這背後的方法,是搜狗自研的聯合建模方式,但實現這一點並不容易。陳偉介紹到,在這個過程中搜狗遇到過幾個問題,第一是如何保證實時、快速地響應,因為「新小微」這個數字人是實時驅動的,需要保證模型本身運算複雜度和延遲要低;

第二是要考慮如何定量用單一模型替代多個模型,因為只有在單一模型下才能有效地確保語音和 3D 數據之間的一致性,如果完全區分開,對齊和匹配需要花費時間,因此,搜狗就做了端到端的多模態合成模型,在端到端的模型下,內部的語音和 3D 之間不是完全割裂的兩個輸出,把語音合的中間信息。

比如時長等信息同步到 3D 肌肉運動的預測中,共享一部分參數,使得最後生成的語音效果和最後 3D 肌肉運動的效果達成一致,實現高品質效果。接下來,就是如何保證數字人做到實時、低延時的驅動,渲染出來的效果還要超寫實,這就涉及到實時渲染驅動的工作,只有把這些動作都做到了,最後才能實現一個逼真的數字人的效果。

相比於靠真人驅動,AI 算法實時驅動具有靈活可控、高效率低成本等優勢,比如在 3D 遊戲行業,製作一個一分鐘的視頻,需要花費一個專業的美術師一個月的時間,而基於 AI 驅動的 3D AI 合成主播,卻只需要一分鐘,幾乎可以實時生產,而寫實度並不出現下降。這意味著,它未來可能代替遊戲產業中關於 3D 製作的工作,大幅降低 3D 人物製作成本。

分身技術突破升級,意義在於推動 AI 落地

搜狗分身」技術讓我們切實地看到,機器可以以更逼真自然的形象呈現在用戶面前,而不是冷冰冰的「機器人」。

毫無疑問,搜狗是分身技術和AI合成主播的開創者,在這一領域也一直保持著技術上的創新,引領著分身技術的發展方向。

自從搜狗 2018 年推出 2D AI 合成主播「邱小浩」以來,業界迅速掀起一股合成 AI 主播的風潮,比如日本 NHK 電視臺 AI 主播「新聞報導子」等等。

隨著圖像生成引擎的優化,搜狗又帶頭讓 AI 合成主播從過去的「坐著播新聞」升級成結合肢體動作的「站立式播報」,實現具備多語言能力的多語種播報、能同用戶溝通交流的自然交互等能力,讓 AI 合成的主播更智能、更自然。

「讓 AI 賦能於人」是搜狗的理念,促進 AI落地,推動解放各個產業生產力,更是實現 AI 技術價值的最終落點。

當前,搜狗分身技術在新聞場景中的價值與意義越發凸顯,但 傳媒新聞播報僅是分身技術的應用場景之一。未來,分身技術「大施拳腳」的前景仍非常廣闊,將涵蓋眾多內容表達場景,例如虛擬教師、虛擬醫生、虛擬客服、虛擬導遊,等等。在解放行業生產力的同時,「搜狗分身」技術還會給用戶更好的個性化音視頻效果,用 AI 提高生活體驗指日可待。

【END】

相關焦點

  • 搜狗分身技術全新升級「第七代」,攜手新華社客戶端首推AI主播超市
    歲末年初,加上新冠疫情時有反覆,相關話題熱搜不斷,多元化、個性化新聞服務的重要性再次凸顯。近日,搜狗分身技術全新升級至「第七代」,並攜手新華社在其新聞客戶端中推出「AI主播超市」,送出八位AI主播「新年大禮包」,用戶可以根據自己的喜好選擇AI主播,享受實時全球資訊播報。
  • 全球首位3D版AI合成主播亮相
    她是全球首位人工智慧驅動的3D版AI合成主播。昨日,新華社新媒體中心主任陳凱星現場播放了一段未來感十足的視頻播報,介紹了他的「新同事」——「新小微」。 3D版AI合成主播。
  • AI主播「姚小松」預熱央視315,搜狗講了一個什麼故事?
    今年315晚會多家科技公司被點名過堂,騷擾電話、網絡貸款、電子菸……搜狗也在315晚會成功登陸央視,不過卻有不同角色。315晚會開播前,搜狗與央視財經頻道聯合推出的AI主播「姚小松」正式上崗,在央視對3·15晚會進行預熱。「姚小松」以央視主持人姚雪松為原型,基於語音合成技術,對其聲音、唇語和表情進行模擬,實現了跟真人一樣的主播發聲和畫面呈現。
  • AI錄音筆在老羅直播間「火出圈」 的背後,是搜狗軟硬結合的AI布局
    更驚喜的是,隨著一聲「上CEO」,搜狗CEO王小川帶著10萬元紅包一起空降直播間,為老羅和網友講述了S1背後的AI技術與應用場景。S1創新黑科技直播間狂圈粉,智能硬體新玩家搜狗進入大眾視野依託於搜索、輸入法兩個產品背後AI技術的多年積累,搜狗的語音、翻譯等AI技術一直處於業內領先水平。
  • 自然交互+知識計算,搜狗打造首款AI營養師賦能萬億大健康市場
    AI 營養師背後的技術積累與突破一款好用的產品背後,往往是對技術的創新突破和融會貫通,對於搜狗 AI 營養師來說,能實現既逼真又智能的體驗背後得益於搜狗的兩大核心技術:AI 分身和知識計算。直觀層面,先說說 AI 營養師為什麼會這麼「真」。
  • 搜狗AI交互首席科學家陳偉,榮獲「北京青年榜樣」年度人物
    圖丨北京日報本次入圍的「科創達人」陳偉,曾帶領團隊實現了最前沿的人機互動技術突破,推出了全球首個商用機器同傳、首個中文唇語識別、首個AI合成主播等產品;還發表數十篇學術論文,申請專利60項,並將其應用於搜狗輸入法、搜索、AI硬體等產品服務數億用戶,充分展現了搜狗在科技創新層面的成果。
  • 騰訊收購搜狗,是因為AI?
    文丨羅超頻道北京時間7月27日晚間,搜狗(SOGO.N)表示:騰訊向公司發出初步非約束性收購要約,有意以9美元/ADS的價格收購公司剩餘股份。消息發布後,搜狗盤前漲超40%,開漲約45%。據悉,騰訊此次請了高盛(亞洲)有限公司為財務顧問,Davis Polk律師事務所為法律顧問,做相關盡職調查。
  • AI擔任隨身翻譯官,搜狗同傳支持2019 CES「中國之夜」
    作為全球科技屆的盛典,今年的CES大會也沒有讓大家失望。展會全面聚焦5G、人工智慧、智慧城市、運動科技和機器人技術等前沿領域,讓人們領略到了技術進步所帶來的時代變革。值得稱道的是,在 2019 拉斯維加斯 CES中國之夜的大會現場,搜狗同傳擔當起了全程獨家的AI同傳服務,表現堪稱驚豔。隨著嘉賓的主題演講,屏幕上同步滾動浮現出的中英文字幕,讓所有觀眾感受到了AI科技的前沿創新成果。
  • DDR5升級背後的技術玄機
    DDR5升級背後的技術玄機 安富利 發表於 2021-01-13 10:27:20 2020年7月,JEDEC固態技術協會正式發布了新的主流內存標準DDR5 SDRAM的最終規範,這意味著新一輪的內存升級換代又要開始了
  • 解密黑科技:證券業首位AI主播在廣發證券 「上崗」
    這位高度類似真人的AI主播一經面世,就引發了業界的高度關注,更引發了人們對其背後人工智慧技術的好奇:這個在鏡頭前播報實時資訊的「小田」,如何誕生以及它的未來又將有哪些應用價值是業界最為關心的話題「小田」正式上崗  證券業首位AI主播正式「上崗」   打開廣發證券易淘金APP,用戶看到的不再是簡單的數字和固定的界面,而將與AI主播「小田」不期而遇。
  • 連續推出兩款翻譯類產品,搜狗做硬體的核心邏輯仍是AI
    搜狗自去年11月在紐交所上市後,曾被業界譽為「中國赴美AI概念第一股」,但之後幾個月內的股價表現並非十分理想,最低跌破過8美元,直到今年6月份才有明顯好轉,近兩周呈連續上漲態勢,股價重回發行價。搜狗股價連續上漲的背後,不僅證明了搜狗現有業務的穩定增長,更是資本市場對其未來AI戰略所取得階段性成果的認可。
  • TechCrunch對話搜狗副總裁吳滔:智能翻譯硬體 助搜狗開拓「AI疆土」
    搜狗機器同傳將對話的精彩內容,以中英文滾動字幕的形式呈現於大屏幕上,為TechCrunch峰會營造「無界溝通」的環境,推進著全球科技行業觀點的交流碰撞。  作為AI領域的創新者,搜狗今年在智能硬體上大展拳腳,搜狗副總裁吳滔也應邀出席了此次峰會。
  • 玄機科技首創AI製作動漫 引領動畫技術革新
    從現象級國漫《秦時明月》,到陸續推出《天行九歌》、《武庚紀》、《天諭》,再到如今火爆二次元的《鬥羅大陸》,背後製作方——玄機科技,堪稱中國動畫界的「超級IP締造者」。玄機科技用一連串閃耀的成績證明了自己塑造頂級國產動畫IP的實力。這背後是玄機科技不斷提升的技術和運營能力,比如最新都在熱炒的AI。讓人驚訝的是這家公司已悄然引用在了動畫製作中,成為國內首家實現用AI製作動畫的公司。
  • 搜狗搜索業務增長近乎停滯,通過輸入法和AI業務尋求新增長
    記者 | 肖芳3月9日,搜狗發布了截至2019年12月31日的第四季度及全年未經審計財報。財報顯示,搜狗第四季度總營收為3.010億美元,同比增長1%;歸屬搜狗的淨利潤為3500萬美元,同比增長33%。
  • 變臉術、讀唇術、智能醫生 搜狗參加香港環球資源電子展再放AI大招
    10月18日,全球最大規模電子產品採購展——環球資源移動電子展於香港開幕,本次展會匯聚了逾3700個展位的移動電子設備及配件、AR/VR產品、2018最熱翻譯機等。
  • 搜狗發布唇語識別技術,「讀唇」這事的商業價值是什麼?
    12月初的世界網際網路大會上,搜狗發布了一項「唇語識別」技術。唇語識別,簡單說就是通過圖像識別你的口型,轉寫出你說的內容。在國外的技術界,2016年穀歌和牛津大學的深度學習項目組曾經共同研發唇語識別技術,在那一年的視頻節目測試中,機器唇語識別的準確率達到46.8%,高於人類唇語專家12.4%的識別率。
  • 全能翻譯 一機兩用,搜狗發布首個支持自由對話翻譯的AI錄音筆
    首創自由對話翻譯,讓跨語言交流更簡單S1是首個支持對話翻譯的AI錄音筆,支持全球200個國家63種語言的在線翻譯,以及中、英、日、韓、法、俄等9種常用語言的離線翻譯,並且在業內率先加入了自由對話翻譯功能,用戶不用按鍵也能隨時隨地中英互譯,讓對話交流更簡單。
  • 搜狗AI錄音筆C1 MAX一鍵搞定
    體重僅有33g的搜狗AI錄音筆C1 MAX背後有個金屬夾,當成領夾麥克風也毫不違和,方便拍vlog時夾在衣領上操作,釋放雙手,移動拍攝都不會影響聲音音質。同時,它還支持AI變聲的功能,有原聲、小黃人、磁性等11種聲音可供選擇,不管是K歌直播還是遊戲連麥,都能享受AI變聲帶來的優化和多變,適合多種場景下的聲音需求。
  • AI賦能搜狗輸入法多語言表達無障礙 語音識別能力提升40%
    中新網4月27日電 據中國網際網路信息中心發布的統計報告顯示,截止2019年6月,我國網民規模達到8.54億。而據艾媒諮詢數據顯示,2019年中國第三方手機輸入法用戶規模已達到7.29億人。這意味著,輸入法行業已全面進入到存量競爭新階段。
  • Discovery《智慧中國》首播,搜狗搜索詮釋「中國智慧」
    正如二十國集團(G20)領導人第十一次峰會上「創新」首次被列入議題,並直接成為首要議題,全球都在關注中國創新方案的啟示和借鑑。而同期播出的《智慧中國》系列紀錄片可以被看做是「中國式創新」的答卷,其中搜狗搜索作為國家創新的名片,向全球觀眾展現了中國高速發展的科技創新推動力,以及正在創造的智慧生活圖景。」