虛擬數字人,是存在於數字世界的「人」,通過動作捕捉、三維建模、語音合成等技術高度還原真實人類,再藉助AR/MR/VR等終端呈現出來的立體「人」。在人工智慧、虛擬實境等新技術浪潮的帶動下,虛擬數字人製作過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數位化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工等為代表的數字人成功進入大眾視野,並以多元的姿態在影視、遊戲、傳媒、文旅、金融等眾多領域大放異彩。
12月3日,首屆數字人開發者大會在北京召開。首屆數字人行業盛會由國家網際網路信息辦公室信息化發展局和中關村科技園區管理委員會作為指導單位,中國信息通信院、浦發銀行以及中關村數智人工智慧產業聯盟主辦,凌雲光技術協辦。會上,中國人工智慧產業發展聯盟(簡稱「AIIA 聯盟」)和中關村數智人工智慧產業聯盟(簡稱「ZAI 聯盟」)數字人工作委員會首次發布了《2020 年虛擬數字人發展白皮書》,白皮書回顧了虛擬數字人發展歷程,重點分析了虛擬數字人關鍵技術和產業發展現狀,對虛擬數字人的未來發展趨勢進行了展望,剖析了數字人發展中的制約因素。
本期內參來源:中國人工智慧產業發展聯盟 中關村數智人工智慧產業聯盟
原標題:
《2020 年虛擬數字人發展白皮書》
作者:顏媚 等
一、什麼是虛擬數字人
1、虛擬數字人研究範疇
「虛擬數字人」一詞最早源於 1989 年美國國立醫學圖書館發起的「可視人計劃」(Visible Human Project, YHP)。2001年, 國內以「中國數位化虛擬人體的科技問題」為主題的香山科學會議第 174 次學術討論會提出了「數位化虛擬人體」的概念。
這些「虛擬數字人」主要是指人體結構的可視化,以三維形式顯示人體解剖結構的大小、形狀、位置及器官間的相互空間關係,即利用人體信息,實現人體解剖結構的數位化。主要應用於醫療領域的人體解剖教學、臨床診療等。
與上述醫療領域的數位化人體不同,本篇中所分析的虛擬數字人(以下簡稱「數字人」)是指具有數位化外形的虛擬人物。與具備實體的機器人不同,虛擬數字人依賴顯示設備存在。虛擬數字人宜具備以下三方面特徵:
一是擁有人的外觀,具有特定的相貌、性別和性格等人物特徵;
二是擁有人的行為,具有用語言、面部表情和肢體動作表達的能力;
三是擁有人的思想,具有識別外界環境、並能與人交流互動的能力。
2、虛擬數字人發展歷程
虛擬數字人的發展與其製作技術的進步密不可分,從最早的手工繪製到現在的 CG(Computer Graphics,電腦繪圖)、人工智慧合成,虛擬數字人大致經歷了萌芽、探索、初級和成長四個階段,詳見下圖。
▲虛擬數字人發展歷程
20 世紀 80 年代,人們開始嘗試將虛擬人物引入到現實世界中,虛擬數字人步入萌芽階段。該時期虛擬數字人的製作技術以手工繪製為主,應用極為有限。1982 年,日本動畫《超時空要塞》播出後,製作方將女主角林明美包裝成演唱動畫插曲的歌手,並製作了音樂專輯,該專輯成功打入當時日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。
1984 年,英國人 George Stone 創作出一個名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數支廣告,一度成為英國家喻戶曉的虛擬演員。由於技術的限制,其虛擬形象是由真人演員通過特效化妝和手繪實現。
21 世紀初,傳統手繪逐漸被 CG、動作捕捉等技術取代,虛擬數字人步入探索階段。該階段的虛擬數字人開始達到實用水平,但造價不菲,主要出現在影視娛樂行業,如數字替身、虛擬偶像等。電影製作中的數字替身一般利用動作捕捉技術,真人演員穿著動作捕捉服裝,臉上點上表情捕捉點,通過攝像機、動作捕捉設備將真人演員的動作、表情採集處理,經計算機處理後賦予給虛擬角色。
2001 年,《指環王》中的角色咕嚕就是由 CG 技術和動作捕捉技術產生,這些技術後續還在《加勒比海盜》、《猩球崛起》等電影製作中使用。2007 年,日本製作了第一個被廣泛認可的虛擬數字人「初音未來」,初音未來是二次元風格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術合成 , 人物聲音採用山葉的VOCALOID系列語音合成,呈現形式還相對粗糙。
近五年,得益於深度學習算法的突破,數字人的製作過程得到有效簡化,虛擬數字人開始步入正軌,進入初級階段。該時期人工智慧成為虛擬數字人不可分割的工具,智能驅動的數字人開始嶄露頭角。
2018 年,新華社與搜狗聯合發布的「AI合成主播」,可在用戶輸入新聞文本後,在屏幕展現虛擬數字人形象並進行新聞播報,且唇形動作能與播報聲音實時同步。
2019 年,浦發銀行和百度共同發布的數字員工「小浦」,也是利用自然語言處理、語音識別、計算機視覺等人工智慧技術製作的虛擬數字人,可通過行動裝置為用戶提供「面對面」的銀行業務服務。
當前,虛擬數字人正朝著智能化、便捷化、精細化、多樣化發展,步入成長期。2019 年,美國影視特效公司數字王國軟體研發部負責人 Doug Roble 在 TED 演講時展示了自己的虛擬數字人「DigiDoug」,可在照片寫實級逼真程度的前提下,進行實時的表情動作捕捉及展現。今年,三星旗下的STAR Labs在CES國際消費電子展上展出了其虛擬數字人項目 NEON,NEON 是一種由人工智慧所驅動的虛擬人物,擁有近似真人的形象及逼真的表情動作,具備表達情感和溝通交流的能力。
3、當前虛擬數字人通用系統框架及運作流程
當前虛擬數字人作為新一代人機互動平臺,仍處於發展期,還未有統一的通用系統框架。這份白皮書根據虛擬數字人的製作技術以及目前市場上提供的數字人服務和產品結構,總結出虛擬數字人通用系統框架,如下圖所示。虛擬數字人系統一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等 5 個模塊構成。
人物形象根據人物圖形資源的維度,可分為 2D 和 3D 兩大類,從外形上又可分為卡通、擬人、寫實、超寫實等風格; 語音生成模塊和 動畫生成模塊可分別基於文本生成對應的人物語音以及與之相匹配的人物動畫; 音視頻合成顯示模塊將語音和動畫合成視頻,再顯示給用戶。 交互模塊使數字人具備交互功能,即通過語音語義識別等智能技術識別用戶的意圖,並根據用戶當前意圖決定數字人後續的語音和動作,驅動人物開啟下一輪交互。
▲虛擬數字人通用系統框架
交互模塊為擴展項,根據其有無,可將數字人分為交互型數字人和非交互型數字人。非交互型數字人體統的運作流程如下圖非交互類虛擬數字人系統運作流程所示。系統依據目標文本生成對應的人物語音及動畫,併合成音視頻呈現給用戶。
▲非交互類虛擬數字人系統運作流程
交互型數字人根據驅動方式的不同可分為智能驅動型和真人驅動型。 智能驅動型數字人可通過智能系統自動讀取並解析識別外界輸入信息,根據解析結果決策數字人後續的輸出文本,然後驅動人物模型生成相應的語音與動作來使數字人跟用戶互動。
該人物模型是預先通過AI技術訓練得到的,可通過文本驅動生成語音和對應動畫,業內將此模型稱為TTSA(Text To Speech & Animation)人物模型。 真人驅動型數字人則是通過真人來驅動數字人,主要原理是真人根據視頻監控系統傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉採集系統將真人的表情、動作呈現在虛擬數字人形象上,從而與用戶進行交互。
▲智能驅動型虛擬數字人運作流程
▲真人驅動型虛擬數字人運作流程
二、虛擬數字人關鍵技術趨勢
1、虛擬數字人技術架構
當前,虛擬數字人的製作涉及眾多技術領域,且製作方式尚未完全定型,通過對現有虛擬數字人製作中涉及的常用技術進行調研,本白皮書在虛擬數字人通用系統框架的基礎上提煉出五橫兩縱的技術架構,如下圖所示。
「五橫」是指用於數字人製作、交互的五大技術模塊,即人物生成、人物表達、合成顯示、識別感知、分析決策等模塊。 其中,人物表達包括語音生成和動畫生成。動畫生成則包含驅動(動作生成)和渲染兩大部分。「兩縱」是指 2D、3D 數字人,3D 數字人需要額外使用三維建模技術生成數字形象,信息維度增加,所需的計算量更大。
▲虛擬數字人技術架構
這份白皮書重點關注虛擬數字人製作過程涉及的建模、驅動、渲染三大關鍵技術。
2、建模 : 靜態掃描建模仍為主流
相機陣列掃描重建替代結構光掃描重建成為人物建模主流方式。早期的靜態建模技術以結構光掃描重建為主。結構光掃描重建可以實現 0.1 毫米級的掃描重建精度,但其掃描時間長,一般在 1 秒以上,甚至達到分鐘級,對於人體這類運動目標在友好度和適應性方面都差強人意,因此被更多的應用於工業生產、檢測領域。
近年來,拍照式相機陣列掃描重建得到飛速發展,目前可實現毫秒級高速拍照掃描(高性能的相機陣列精度可達到亞毫米級),滿足數字人掃描重建需求,成為當前人物建模主流方式。國際上 IR、Ten24 等公司已經將靜態重建技術完全商業化,服務於好萊塢大型影視數字人製作,國內凌雲光等公司製作的拍照式人體掃描系統也已經在電影、遊戲、虛擬主播項目中成功應用。
相比靜態重建技術,動態光場重建不僅可以重建人物的幾何模型,還可一次性獲取動態的人物模型數據,並高品質重現不同視角下觀看人體的光影效果,成為數字人建模重點發展方向。動態光場重建是目前世界上最新的深度掃描技術,此技術可忽略材質,直接採集三維世界的光線,然後實時渲染出真實的動態表演者模型,它主要包含人體動態三維重建和光場成像兩部分。
人體動態三維重建一直是計算機視覺、計算機圖形學等領域研究的重點,主要採用攝像機陣列採集動態數據,可重建高低頻幾何、紋理、材質、三維運動信息。光場成像是計算攝像學領域一項新興技術,它不同於現有僅展示物體表面光照情況的 2D 光線地圖,光場可以存儲空間中所有光線的方向和角度,從而產出場景中所有表面的反射和陰影,這為人體三維重建提供了更加豐富的圖像信息。
近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關研究,其中 Microsoft 的 108 攝像機 MRstudio已經在全球各大洲均有建設;Google 的 Relightable 系統將結構光、動態建模、重光照技術集成到一起,在一套系統中包含模型重建、動作重建、光照重建的全部功能;國內清華大學、商湯科技、華為等也展開了相關研究,並取得國際水平的同步進展。
3、驅動 : 智能合成 、 動作捕捉遷移
2D、3D 數字人均已實現嘴型動作的智能合成,其他身體部位的動作目前還只支持錄播。2D、3D 數字人嘴型動作智能合成的底層邏輯是類似的,都是建立輸入文本到輸出音頻與輸出視覺信息的關聯映射,主要是對已採集到的文本到語音和嘴型視頻(2D)/嘴型動畫(3D)的數據進行模型訓練,得到一個輸入任意文本都可以驅動嘴型的模型,再通過模型智能合成。
然而,2D 視頻和 3D 嘴型動畫底層的數學表達不一樣,2D 視頻是像素表達;3D 嘴型動畫是 3D 模型對應的 BlendShape 的向量表達。除了嘴型之外的動作,包含眨眼、微點頭、挑眉等動畫目前都是通過採用一種隨機策略或某個腳本策略將預錄好的視頻/3D 動作進行循環播放來實現。例如 3D 肢體動作目前就是通過在某個位置觸發這個預錄好的肢體動作數據得到。
觸發策略是通過人手動配置得到的,未來希望通過智能分析文本,學習人類的表達,實現自動配置。截至目前,國內外科技企業在數字人動作智能合成方面都有一定進展,國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術已在動畫製作中被成功商用,國內搜狗、相芯科技等公司也有部分項目落地應用。
通過將捕捉採集的動作遷移至數字人是目前3D數字人動作生成的主要方式,核心技術是動作捕捉。動作捕捉技術按照實現方式的不同,可分為光學式、慣性式、電磁式及基於計算機視覺的動作捕捉等。現階段,光學式和慣性式動作捕捉佔據主導地位,基於計算機視覺的動作捕捉成為聚焦熱點。 光學動作捕捉通過對目標上特定光點的監視和跟蹤來完成運動捕捉的任務。
最常用的是基於 Marker(馬克點)的光學動作捕捉,即在演員身上粘貼能夠反射紅外光的馬克點,通過攝像頭對反光馬克點的追蹤,來對演員的動作進行捕捉。這種方式對動作的捕捉精度高,但對環境要求也高,並且造價高昂。光學式解決方案比較出名的企業有英國的Vicon,美國的 OptiTrack 和魔神(MotionAnalysis),國內的 Nokov、uSens、青瞳視覺等。
慣性動作捕捉主要是基於慣性測量單元(Inertial Measurement Unit,IMU)來完成對人體動作的捕捉,即把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節點上,通過算法對測量數值進行計算,從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉,但精度較低,會隨著連續使用時間的增加產生累積誤差,發生位置漂移。
慣性式動捕方案的代表性企業有荷蘭的 Xsens,以及國內的諾亦騰(Noitom)、幻境、國承萬通等。 基於計算機視覺的動作捕捉主要是通過採集及計算深度信息來完成對動作的捕捉,是近些年才興起的技術。這種視覺動捕方式因其簡單、易用、低價,已成為目前使用的頻率較高的動作捕捉方案,代表性產品有 Leap Motion、微軟Kinect 等。以上動捕方案的性能對比如下圖所示。
▲主流動作捕捉方案性能對比
4、 渲染:真實性和實時性均大幅提升
PBR(Physically Based Rendering,基於物理的渲染技術)渲染技術的進步以及重光照等新型渲染技術的出現使數字人皮膚紋理變得真實,突破了恐怖谷效應。恐怖谷效應由日本機器人專家森政弘提出,認為人們對機器人的親和度隨著其仿真程度增加而增高,但當達到一個較高的臨界點時,親和度會突然跌入谷底,產生排斥、恐懼和困惑等負面心理。數字人恐怖谷效應主要由數字人外表、表情動作上與真人的差異帶來,其中外表真實感的關鍵就是皮膚材質的真實感,無論是塑料感還是蠟像感都會給人類帶來不適。在 PBR 技術出現之前,限於相關軟硬體的發展程度,所有的 3D 渲染引擎,更多的著重在於實現 3D 效果,在真實感體現方面差強人意。
PBR 是基於真實物理世界的成像規律模擬的一類渲染技術的集合,它的關鍵在於微表面模型和能量守恆計算,通過更真實的反映模型表面反射光線和折射光線的強弱,使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR實現。
重光照技術通過採集模擬多種光照條件的圖像數據,測算數字人表面光照反射特性,併合成出數字人模型在新的光照下的渲染結果,使計算機中的虛擬數字人在任意虛擬環境下都可以呈現近乎真實的效果,它徹底改變了傳統渲染方式通過模擬皮膚複雜的透射反射來計算渲染總會帶來誤差的局面。
該技術在 2000 年初由南加州大學實驗室創建LightStage 平臺時提出,並開始了相關研究,目前已經經過 7代的迭代發展,已被成功應用到《阿凡達》、《復仇者聯盟》等眾多經典影片的角色製作中。國內清華大學、浙江大學也都建設了重光照系統,可以實現高精度人體光照採集與重建。
實時渲染技術的突破助力寫實類數字人實現實時交互,應用範圍快速擴大。實時渲染指圖形數據的實時計算與輸出,其每一幀都是針對當時實際的環境光源、相機位置和材質參數計算出來的圖像。與離線渲染相比,實時渲染面臨較大挑戰。一是渲染時長短,實時渲染每秒至少要渲染 30 幀,即在 33 毫秒內完成一幀畫面渲染,離線渲染則可以花費數小時甚至更長時間渲染一幀畫面;二是計算資源有限,實時渲染受限於時效要求,計算資源一般是不能及時調整,而離線渲染受時效限制較低,可臨時調配更多的計算資源。
早期的實時渲染只能選擇高度抽象和簡化過的渲染算法,犧牲了畫面質量。隨著硬體能力的提升和算法的突破,渲染速度、渲染效果的真實度、渲染畫面的解析度均大幅提升,在虛擬人物實時渲染方面,已經能做到以假亂真。
2016 年,EpicGames 聯合 3Lateral、Cubic Motion、Ninja Theory 等公司聯合開發的可實時驅動的虛擬人物在當年的 Siggraph(Special Interest Group for Computer GRAPHICS,計算機圖形圖像特別興趣小組,致力於推廣和發展計算機繪圖和動畫製作的軟硬體技術)會議中做了演示,成功在消費級的硬體環境下實時渲染了高質量的虛擬角色。
2018 年 5 月,騰訊發布虛擬人 Siren,也一個支持實時渲染的虛擬人物。
▲離線渲染與實時渲染對比
三、虛擬數字人產業應用現狀
1、虛擬數字人產業視圖
當前虛擬數字人理論和技術日益成熟,應用範圍不斷擴大,產業正在逐步形成、不斷豐富 ,相應的商業模式也在持續演進和多元化。虛擬數字人的產業鏈從上到下可以分為基礎層、平臺層和應用層,如下圖所示。
▲虛擬數字人產業視圖
基礎層。基礎層為虛擬數字人提供基礎軟硬體支撐,硬體包括顯示設備、光學器件、傳感器、晶片等,基礎軟體包括建模軟體、渲染引擎。 顯示設備是數字人的載體,既包括手機、電視、投影、LED 顯示等 2D 顯示設備,也包括裸眼立體、AR、VR 等 3D 顯示設備。 光學器件用於視覺傳感器、用戶顯示器的製作。 傳感器用於數字人原始數據及用戶數據的採集。
晶片用於傳感器數據預處理和數字人模型渲染、AI 計算。 建模軟體能夠對虛擬數字人的人體、衣物進行三維建模。 渲染引擎能夠對燈光、毛髮、衣物等進行渲染,主流引擎包括 Unity Technologies 公司的 Unity 3D、Epic Games公司的 Unreal Engine 等。總體來看,處於基礎層的廠商已經深耕行業多年,已經形成了較為深厚的技術壁壘。
平臺層。平臺層包括軟硬體系統、生產技術服務平臺、AI 能力平臺,為虛擬數字人的製作及開發提供技術能力。建模系統和動作捕捉系統通過產業鏈上遊的傳感器、光學器件等硬體獲取真人/實物的各類信息,利用軟體算法實現對人物的建模、動作的重現;渲染平臺用於模型的雲端渲染。解決方案平臺基於自身技術能力為廣大客戶提供數字人解決方案。AI 能力平臺提供計算機視覺、智能語音、自然語言處理技術能力。平臺層匯聚的企業較多,騰訊、百度、搜狗、魔琺科技、相芯科技均有提供相應數字人技術服務平臺。
應用層。應用層是指虛擬數字人技術結合實際應用場景領域,切入各類,形成行業應用解決方案,賦能行業領域。按照應用場景或行業的不同,已經出現了娛樂型數字人(如虛擬主播、虛擬偶像)、教育型數字人(如虛擬教師)、助手型數字人(如虛擬客服、虛擬導遊、智能助手)、影視數字人(如替身演員或虛擬演員)等。不同外形、不同功能的虛擬數字人賦能影視、傳媒、遊戲、金融、文旅等領域,根據需求為用戶提供定製化服務。
2、虛擬數字人重點領域應用環境及典型應用案例分析
虛擬數字人應用給傳統領域帶來變革。通過虛擬數字人產品與生產生活相融合,其規模化、可定製化、可複製化的能力能夠推動改善傳統環節流程、提升效能、降低成本等,大幅提升業務體驗,給傳統領域帶來變革。典型的應用領域、場景及充當的角色如下圖所示。
▲虛擬數字人應用領域、場景及角色
虛擬數字人+影視。特效電影廣受市場認可,扶持政策的密集出臺,以數字替身為代表的虛擬數字人+影視類的產品應用正在展現廣闊的市場前景。影視是對視覺效果的要求最高且最大程度影響社會對數字人形象認知、品牌的一個領域。近年來中國影視數字人特效取得快速發展,部分特效大片獲得市場認可。2019 年中國影視票房收入超過 640 億級別,連續多年增長8%左右,其中特效電影約佔 10%。國家對於影視特效的發展十分重視,先後出臺了一系列相關扶持政策。
2019 年,科技部、文化部聯合六部委發布《關於促進文化和科技深度融合的指導意見》,提出加強雷射放映、虛擬實境、光學捕捉、影視攝錄、高清制播、圖像編輯等高端文化裝備自主研發及產業化。2020 年,國家電影局《關於促進科幻電影發展的若干意見》,提出以科幻電影特效技術發展引領帶動電影特效水平整體提升,並要落實財稅支持政策,同時對入駐影視文化基地的科技企業進行租金減免。
於 2019 年 2 月 22 日在中國內地上映的《阿麗塔:戰鬥天使》是虛擬數字人技術與影視相結合的典型應用案例之一。劇中的女主角阿麗塔是一位完全採用數字人技術製作的角色。該電影通過採用特殊的面部捕捉儀器對真人演員人臉細節進行精準捕捉,然後將其作為電腦中虛擬角色的運動依據,使虛擬角色的動作和表情能像真人一樣自然逼真。
▲2013-2019 中國電影票房收入增長趨勢
▲中國內地電影票房總收入 TOP10
虛擬數字人+傳媒。以虛擬主播為代表傳媒行業應用很好的滿足了媒體傳播領域對內容生成方面的業務需求,成為了融媒體時代的傳媒利器。據前瞻產業研究院統計,2019 年中國視頻直播行業收入達到 1082 億人民幣,全國有 3.9 億人在關注虛擬偶像,其中最大的二次元活動社區B站月活用戶達 1140 萬,虛擬主播佔直播營收 40%。
同期,B站、虎牙等大型直播平臺也都開啟了線上、線下虛擬主播活動。如Bilibili Macro Link系列活動VR直播觀看如數達到 660 萬,10 萬級的「up主」(指在視頻網站、論壇、FTP站點上傳視頻音頻文件的人)就可以達到 100 萬級真人主播的應收。此外,在傳統媒體領域,以虛擬主持人為代表的數字人應用也開始進入公眾視野。在2019 年央視網絡春晚舞臺上,以撒貝寧為原型製作的AI虛擬主持人「小小撒」首次上崗與原型同臺秀技。這也是國內第一次人類主持人和自己的虛擬孿生數字人共同主持大規模的國家級文化活動,引起了業界及網民的強烈關注。
虛擬數字人+遊戲。遊戲市場日趨激烈,對於精品的需求日益增長,或是虛擬數字人技術在該領域落地的福音。2019 年遊戲市場規模達到 2300 億,其中與數字人相關度較大的RPG類遊戲約佔 30%的份額。我國國內遊戲監管環境和遊戲版號審批政策仍舊趨嚴,遊戲用戶數相比 2018 年僅增加 0.1 億,市場競爭日趨激烈,對於精品的需求越來越高。
虛擬數字人技術則能夠有效簡化和加快遊戲動畫製作過程,可以在有限成本的情況下讓遊戲中更多的虛擬角色都具備豐富的肢體動作和精細的面部表情,給玩家帶來更沉浸的遊戲體驗。例如網易伏羲實驗室成功將虛擬數字人技術應用到《逆水寒》等多個遊戲劇情動畫場景製作中,在無手工參與下,快速生成動畫,這使得大量的虛擬角色都能富有視覺的表達能力。
▲2015-2019 中國遊戲市場實際銷售收入
虛擬數字人+金融。虛擬數字人能夠有效助力金融機構實現「降本增效」,各大金融巨頭爭相布局「數字員工」。運用金融科技實現「降本增效」應對市場競爭成為金融行業發展共識,以科技為核心的競爭導向,帶來了金融機構信息科技投入的逐年增加。據輕金融統計,2019 年,16 家全國性銀行科技總投入超千億,總計1034.1億元。其中工農中建四大行投入均超過100億元,建行投入最高,達到 176.33 億元。
虛擬數字人擁有擬人的表情動作,可進行智能對話,能夠與服務類場景較多的金融行業天然結合。多家金融機構正利用虛擬數字人技術打造「數字員工」,成為了科技創新、降本增效的重要方向。以中國工商銀行為例,其推出的數字人銀行員工,在移動終端和大屏等媒介上展現數字擬態形象,能夠在產品營銷講解、金融業務辦理、資訊播報、諮詢問答等多個業務場景,實現與用戶的可視化交互,為用戶帶來個性化服務,有效解除用戶顧慮,提升用戶體驗和駐留時間,真正讓數位化服務「聽得見」的同時也「看得見」。
▲部分國際領先金融機構信息技術投入金額與增速
▲全國性科技總投入與佔營收比重
虛擬數字人+文旅。數字文旅產業表現突出,以虛擬講解員為代表的虛擬數字人應用或為其貢獻蓬勃力量。據中國旅遊研究院統計,2019 年前三季度,文旅營業收入 62187 億元,比上年同期增長 7.6%,特別是數字文旅產業表現突出,成為文旅產業轉型升級的重要引擎。數字文化內容與網際網路旅遊、智慧旅遊、虛擬旅遊等新模式聯動發展,特別是疫情期間得到不斷增長。
目前,虛擬數字人在文旅領域暫時還沒有落地產品,但相關概念產品已經開始映入公眾眼帘。例如商湯科技在 2020世界人工智慧大會(WAIC)上展示的AI數字人「小糖」。「小糖」可依託於展臺前的滑動屏幕,為觀眾介紹和講述預先設定好的講解內容。虛擬數字人帶來的全新展示方式和講解模式,在幫助文旅場館解決人力不足問題的同時,更憑藉其智能化、電子化和展示效果多樣化的特性,為文旅行業的未來帶來更多可能性。
▲2012-2019 全國國內旅遊人數
四、虛擬數字人發展趨勢和制約因素
1、虛擬數字人未來發展趨勢
虛擬數字人的採集、製作流程逐步簡單化、一體化,迭代式提升真實感。未來數字人的製作技術將會變得更加簡單,會有更加一體化、自動化的設備同步獲取模型、身體、表情、手指運動、聲音等所有數據,無需穿戴專業傳感設備。在特定的環境下人們甚至無法分辨數字人的真假,可以更加自然與數字人交流互動。
虛擬數字人的交互方式衍變,智能化程度不斷加深。全雙工技術將推進數字人的交互方式衍變,讓數字人擁有一次喚醒、多次交互的能力,具備實時智能響應、智能打斷、智能糾錯、多輪對話等功能。另外,隨著計算機視覺、語音和自然語言處理等人工智慧技術的不斷進步,虛擬數字人將逐漸具備「看」、「聽」、「說」、「懂」的能力。
虛擬數字人逐漸實現在多場景、多領域的融合、應用、落地。儘管目前數字人的發展環境、整體情況還處於尚未成熟的起步階段,但隨著虛擬數字人技術的精進、市場價值的釋放,其將更全面、更深入地融入影視、金融、文旅等各個領域,充分發揮應用價值,迸發巨大的潛力。
2、虛擬數字人發展制約因素
目前,制約虛擬數字人產業發展的因素主要有以下幾個方面。
政策環境層面,行業依然處於培育期,缺乏政策與資本扶持。一是缺少上下遊協作交流平臺,制約整體產業化發展。虛擬數字人產業鏈長,參與主體多,既有大型平臺企業、也有中小單位和初創公司,行業溝通成本高。二是行業投資回報周期較長,為數字人產業投資豎立了「無形壁壘」。數字人產業還不完全成熟,投資回報周期較傳統技術應用更長,缺乏長期耐心資本來扶持企業成長。由於缺乏資本力量的推動,各產業規模擴張與資源整合的進程相對滯後。
技術應用層面,製作方式自動化程度低、生產門檻高,關鍵技術還不夠完全成熟。目前 3D 數字人建模依然需要大量的人工製作參與,整體製作效率相對較低,與部分應用場景快速、批量製作的需求並不匹配。此外,在虛擬數字人的關鍵技術方面,還存在實時面部表情捕捉與還原精準度不足、語音識別在強噪聲幹擾及遠場識別等方面還很難達到實用化要求等瓶頸,需要加大研究力度以提高算法精度。
人才培養層面,技術人才、綜合人才極度缺乏,人才供應體系不完善。數字人的技術跨度大,從製作端的美術師、模型師、綁定師、材質師、動作捕捉師、燈光師、特效師、攝像師、導演、特效演員,到技術端的光學工程師、硬體工程師、軟體工程師、算法工程師、系統工程師,以及運營端的產品經理、經紀人等每一個環節的人才都很重要,急需一套完善的人才供應體系,特別是跨界人才體系,才能保障產業的良性運轉。
標準體系層面,行業內缺乏統一技術標準和體系,產品質量良莠不齊。數字人的產業處於發展初期,製作型公司、技術型公司、運營型公司、應用型公司均已入場,但各企業的技術、產品質量差異較大。通過建立虛擬數字人的技術、產品標準體系,保護優質數字人廠商,促進行業健康發展。
安全倫理層面,相關法律法規和倫理規範尚待完善,存在潛在風險。虛擬數字人技術在發展中會引發一些法律問題和倫理風險,需要提前建立相關制度進行防範。虛擬世界裡面的虛擬人物所有權、犯罪行為尚沒有法律上的界定。虛擬數字人帶來的沉浸式體驗可能會對用戶的精神、心理狀態帶來影響,改變用戶在脫離虛擬世界後的行為,比如可能會增加暴力傾向,存在一定倫理風險。
智東西認為,現在,在AI+5G的加持下,「虛擬數字人」的蓬勃發展才剛剛開始,而這只是第三產業智能化趨勢的一個縮影,隨著我國產業轉型升級的腳步逐漸加速,將會有各種形態的虛擬數字人出現在各行各業。