作者 | 陳利鑫
頭圖 | CSDN 下載自東方 IC
又是一年兩會時間,平時關注新聞的朋友們可能會發現,新華社關於兩會的報導,進行消息播送的主持人隊伍加入了一位漂亮小姐姐,而這位小姐姐竟然不是真人,而是一個 3D 數字人!
眼前這個神奇的虛擬人,完全可以滿足人們對於新聞消息的接收需求了。這不禁讓人好奇,這個 3D 虛擬人是什麼來頭?
原來這位 3D 數字人名叫「新小微」,是搜狗聯合新華社推出的全球首位 3D AI 合成主播。以新華社記者趙琬微為原型,由人工智慧「克隆」而成。
看這細緻入微的表情,豐富的動作,細緻的肌膚紋理和瞬間變化的服裝,堪比大製作電影中的特效人物。
3D AI 合成主播有哪些特性?
事實上,這已經不是搜狗推出的第一位合成主播了,早在 2018 年 11 月的網際網路大會上,搜狗發布全球首個 2D AI 合成主播時就曾引起過巨大的轟動。不到兩年,搜狗再次推出 3D AI 合成主播,使其AI合成主播品牌下形成2D和3D兩條技術線來並行發展,各顯所長。
那3D 「新小微」究竟有哪些特點呢?
1) 超寫實的高度逼真:
高度還原真人髮膚,在特寫鏡頭下,連頭髮絲和皮膚毛孔都清晰可見;
2) 更高可塑性,更強交互能力、可適用更多空間:
高立體感和層次感:支持多機位景深、支持多樣化精微表情播報,播報形態可通過360°全方位呈現;
高靈活性:可走動、轉身、可擺出各種複雜動作和姿態;
基於「微模塊化」特性,其表情、髮型、服飾均能根據不同新聞和場景變換。
3)基於 AI 算法實時驅動:只需輸入文本內容,「新小微」就能根據語義實時播報新聞,其表情唇動、肢體動作和語音表達高度契合、自然逼真。
這也是搜狗 3D 合成 AI 區別於電影和遊戲特效 CG 技術的主要區別,電影合成技術背後要耗費巨大的人力、財力和時間成本,而搜狗 3D AI合成主播根據輸入的文本幾乎做到了實時生成視頻或視頻流。
開創 3D AI 合成主播,背後實現技術有玄機
推出3D 版 AI 合成主播,靠的是搜狗分身技術的不斷突破和創新。下面,我們來看一下 3D AI 合成主播的技術實現細節與步驟。
1) 首先,是基於真人原型採集海量數據:
搜狗搜狗 AI 交互技術部總經理陳偉解釋,要想實現對模型更加逼真的驅動,主要通過兩部分來實現,第一部分在於在採集過程中使用的設備是否能捕捉到更精細的數據,第二部分是做到採集數據後的精準標註,這相當於在整個採集端把數據生產出來。
為了打造「新小微」,真人趙琬微戴著數據採集頭盔,幾百個攝像頭對其身體各個部位進行 360 度全方位「打點」掃描,採集每一處細節,並對其多種形態的表情和動作進行細緻入微地捕捉記錄,這才有了逼真的既視感。
2) 其次,採用了行業領先的掃描還原算法,以及面部肌肉驅動、表情肢體捕捉等技術,生成高逼真度的 3D 數字人模型。
實現逼真的 3D 效果,關鍵還在於搜狗在採集過程中設計的一套完整的人體和面部參數。之前的卡通模型多基於 Blend shape(融合變形)方式,但是「新小微」的模型創建更多地用到了肌肉模型,因為肌肉模型更加符合人的生理結構,不同參數之間可以更好地協同,因此,對建模參數進行優化之後,最後的運動效果會更加真實。
「新小微」的 3D 模型具體是如何構建的呢?搜狗技術專家解釋到,原來這需要先把靜態模型建起來,然後再綁定一下。「新小微」最逼真的部分就是她的臉,搜狗採用了業界最領先的籠式採集裝置,裡面分布 100 多個攝像頭同時拍照,相當於全方位捕捉人臉信息,再通過經驗豐富的動畫師對結果進行細化,對著寫實的圖片,把成品模型建出來。這是建模人頭的部分。
另外,搜狗對「新小微」的人頭、身體採用了肌肉模型綁定,這種方法下需要先構建骨骼模型,然後在骨骼上附著肌肉,再在肌肉上附著表皮,是一個聯動的過程。肌肉模型更符合動力學的特徵,比如人在跑的時候,肌肉運動時,會帶著皮膚做一些微小的動作,之前動畫中常用的 Blend shape 方案可以實現整體的動作,但難以把細微的動作表現出來。這是骨骼綁定模型的優勢。
對於「新小微」,不管是面部表情還是身體動作的採集,搜狗都採用了業界最領先的技術,並對數據進行專業質檢及精修,耗費了很多人力,最終獲得優質的的學習數據,直接驅動與真人相比差異變小。
3) 然後,通過搜狗分身的多模態生成算法對 3D 數字人模型進行實時驅動、渲染,使其面部表情唇動、肢體動作和語言表達能力實現了高度契合。
當前,大部分「能動」的 3D 數字人主要是靠真人驅動,而」新小微」播報新聞,卻是文本輸入,實時「翻譯」成語音,也就是說輸入文本,經過搜狗的度學習多模態建模方法,可以實時將文本轉化為語音,並且實時匹配面部表情和動作。
這背後的方法,是搜狗自研的聯合建模方式,但實現這一點並不容易。陳偉介紹到,在這個過程中搜狗遇到過幾個問題,第一是如何保證實時、快速地響應,因為「新小微」這個數字人是實時驅動的,需要保證模型本身運算複雜度和延遲要低;
第二是要考慮如何定量用單一模型替代多個模型,因為只有在單一模型下才能有效地確保語音和 3D 數據之間的一致性,如果完全區分開,對齊和匹配需要花費時間,因此,搜狗就做了端到端的多模態合成模型,在端到端的模型下,內部的語音和 3D 之間不是完全割裂的兩個輸出,把語音合的中間信息。
比如時長等信息同步到 3D 肌肉運動的預測中,共享一部分參數,使得最後生成的語音效果和最後 3D 肌肉運動的效果達成一致,實現高品質效果。接下來,就是如何保證數字人做到實時、低延時的驅動,渲染出來的效果還要超寫實,這就涉及到實時渲染驅動的工作,只有把這些動作都做到了,最後才能實現一個逼真的數字人的效果。
相比於靠真人驅動,AI 算法實時驅動具有靈活可控、高效率低成本等優勢,比如在 3D 遊戲行業,製作一個一分鐘的視頻,需要花費一個專業的美術師一個月的時間,而基於 AI 驅動的 3D AI 合成主播,卻只需要一分鐘,幾乎可以實時生產,而寫實度並不出現下降。這意味著,它未來可能代替遊戲產業中關於 3D 製作的工作,大幅降低 3D 人物製作成本。
分身技術突破升級,意義在於推動 AI 落地
搜狗分身」技術讓我們切實地看到,機器可以以更逼真自然的形象呈現在用戶面前,而不是冷冰冰的「機器人」。
毫無疑問,搜狗是分身技術和AI合成主播的開創者,在這一領域也一直保持著技術上的創新,引領著分身技術的發展方向。
自從搜狗 2018 年推出 2D AI 合成主播「邱小浩」以來,業界迅速掀起一股合成 AI 主播的風潮,比如日本 NHK 電視臺 AI 主播「新聞報導子」等等。
隨著圖像生成引擎的優化,搜狗又帶頭讓 AI 合成主播從過去的「坐著播新聞」升級成結合肢體動作的「站立式播報」,實現具備多語言能力的多語種播報、能同用戶溝通交流的自然交互等能力,讓 AI 合成的主播更智能、更自然。
「讓 AI 賦能於人」是搜狗的理念,促進 AI落地,推動解放各個產業生產力,更是實現 AI 技術價值的最終落點。
當前,搜狗分身技術在新聞場景中的價值與意義越發凸顯,但 傳媒新聞播報僅是分身技術的應用場景之一。未來,分身技術「大施拳腳」的前景仍非常廣闊,將涵蓋眾多內容表達場景,例如虛擬教師、虛擬醫生、虛擬客服、虛擬導遊,等等。在解放行業生產力的同時,「搜狗分身」技術還會給用戶更好的個性化音視頻效果,用 AI 提高生活體驗指日可待。
【END】