讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

2020-12-03 36氪

本文作者：

王子彬，商湯科技移動智能事業群副總裁、智能終端業務CTO

李啟銘，商湯科技智能終端業務3D產品負責人

***

在上世紀70年代，工業界開始運用3D視覺技術測量和掃描物件，提高生產效率。最近10多年，家用遊戲機廠商將3D體感外設帶入大眾視野，帶來了新奇的體感遊戲。近三年，越來越多的智慧型手機開始配備3D傳感器，並在AI的加持下，開拓出了更多更具想像空間的應用場景。未來10年，AI+3D將無處不在，給我們的生活和工作帶來深遠影響。

賦予機器感知三維世界的「眼睛」

人類擁有與生俱來的3D環境感知和理解能力，這是因為我們用兩隻眼睛來捕捉圖像，通過大腦處理形成立體視覺，從而辨認物體的形狀方位、他人的動作，輕鬆自然地跟這個三維世界交互。

能否讓機器也能感知三維世界呢？或許很多人會想到給機器添加一顆攝像頭。但普通RGB攝像頭拍攝的現實世界的影像，僅能採集場景中的色彩信息，無法採集物體和攝像頭之間的距離和方位。也就是說，無論場景中的三維結構有多麼豐富，對機器來說都是一個平面，一個二維世界。

3D視覺技術，就是賦予機器感知三維世界的信息和能力，並給我們帶來顛覆性的價值。試想一下，將汽車立體模型通過增強現實（AR）技術投射出來，客戶可360度觀看，還能「開車門」，由此直觀地提出意見，而不是一張張翻看照片；或者派無人機探索森林或洞穴，一邊前行一邊繪製周邊場景的三維地形，而不是我們拿著一張平面地圖親自探險……

事實上，3D視覺技術目前已經在工業界取得成功，但在消費領域，受限於3D感知硬體的成本和體積、計算能力等困擾，很多場景並未激活。除了掃地機器人等個別終端外，我們的智慧型手機等行動裝置，還處在二維世界裡。但近幾年，3D視覺技術終於開始走向個人終端，機器認知世界的新大門正在打開。

3D感知硬體小型化，ToF漸成主流

實現3D視覺能力，3D感知硬體的加持至關重要。目前主流的3D感知硬體技術包括雙目視覺、結構光、ToF（飛行時間）以及雷射雷達。

雙目視覺系統是通過雙攝像頭同時進行成像，然後通過對比兩個圖像中每個像素點的相對位置差，來計算出該像素點在三維環境中的位置，類似於人雙眼的工作原理。

結構光和ToF則能在RGB的基礎上直接提供深度信息，屬於RGB-D方案，在精度上比雙目視覺更勝一籌。其中，結構光是通過投射大量光斑到物體上，然後根據光斑的形變量來判斷其所處深度；ToF則是向物體發射連續的光脈衝信號，並接收返回的信號，通過計算信號發射和返回的時間來計算深度信息。相比之下，結構光在較短距離內擁有更高精度，而ToF支持的工作距離更長，適用於更加多元化的場景，且傳感器模塊少，體積小。

雷射雷達的原理與ToF類似，但其感知距離更遠，範圍更大，精度也更高。很多自動駕駛汽車通過雷射雷達來感知周圍環境，不過缺點是成本過於高昂，只適用於特定場景。

在最近的三年，我們觀察到的一個顯著趨勢是ToF和結構光的小型化，使得它成功地應用到了手機當中。而ToF以其體積更小、適用場景更廣等優勢，逐漸受到更多廠商青睞，很多最新的旗艦手機都將ToF作為一大賣點。據統計，2019年有約5000萬臺配備ToF的手機出貨，業內預計2020年、2021年將分別達到1.5億和5億臺，逐漸呈現出爆發態勢，2020年全球智慧型手機3D感知硬體市場的規模也將到達99.25億美元。

ToF在智慧型手機上的加速應用，有助於3D視覺技術的廣泛普及化，成為接下來10年中非常重要的科技趨勢。深入地觸達消費市場，也激活了更多的應用創新可能。

AI技術，突破3D視覺技術的難點

3D感知硬體能夠提供距離、深度等數據信息，但我們要的並不是單純的數據，而是基於這些數據，通過不同的表達和理解方式，實現不同的應用。比如對三維場景進行數位化建模，或者繪製三維地圖，從而讓機器能夠實時感知自己在所處空間中的位置，以便在運動時及時避開障礙物等。這需要根據深度信息生成深度圖像，並與RGB圖像，甚至是紅外圖像進行融合併完成大量計算。

但是，通過硬體感知的信息生成的深度圖像，往往存在因硬體性能限制而產生的瑕疵，例如在細小或複雜交錯的物體之間，出現深度信息估計錯誤等問題。此外，精準度、魯棒性、實時性、效率等都是決定實際應用效果的關鍵。這都需要依靠額外的算法進行實時處理予以彌補和增強。

在工業場景中，由於應用相對單一，且3D感知硬體大多處於固定或平穩狀態，很多難題可以通過編寫特定算法加以解決。但在移動終端上，不規則的抖動、晃動等情況帶來的難以預估的挑戰，傳統算法難以突破。

2012年，AI在計算機視覺領域取得突破，給3D視覺技術發展也帶來了全新思路。AI可通過對大量實際數據進行學習，自行總結其中的規律和特徵。這種方法可以在短時間內，完成傳統算法需要多年才能突破的問題，有效彌補硬體能力的不足。

更為重要的是，AI不僅能感知場景中的三維結構，還能識別出場景中的三維物體是什麼，在做什麼。例如檢測人、物體，識別人的姿態，跟蹤物體的運行軌跡……這就進一步敞開了機器認知世界的新大門。

在我們看來，3D硬體的小型化，是3D視覺技術應用場景拓展和創新的硬體基礎，而AI技術則是真正的動力引擎。兩者密不可分，可以說，AI+3D視覺技術拐點已至。

AI+3D，緊密協作實現完美空間感知

目前，商湯科技已經將AI技術廣泛地應用於3D感知的各個領域，開發了基於ToF等3D感知硬體的技術與產品，包括人臉與人體3D重建、物體重建、3D全身關鍵點跟蹤、3D Avatar驅動工具、AR測量、AR場景互動、AR導航、3D人臉認證、3D攝影等等，均體現了AI+3D的顯著優勢。

首先，AI+3D可以進一步優化感知效果，提升用戶體驗。以動作捕捉為例，結合對深度信息的高效處理，能夠整體提升肢體關鍵點的穩定性、準確性以及運動的穩定性和自然度，精準呈現人在三維空間中的動作姿態變化；

第二，AI+3D可以更加高效地應用和處理深度信息，理解環境中人物間的相互關係。例如為AR帶來逼真的虛實融合和互動效果，在智慧型手機上完成高精度3D模型建模，或是為自動駕駛提供車外的人、車、物的識別和距離感知。

第三，AI+3D可以更加精準地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下，得益於對深度信息的快速處理，在分割效果上比2D感知技術有很大的提升，可提供不同人物之間的語義信息，亦可結合3D相機系統帶來更逼近單反的攝影效果；

第四，深度信息與紅外圖像的結合，可以讓3D感知適用於更多的場景，使之不受環境光線明暗的影響。

基於上述優勢，我們認為，AI+3D會從人機互動、互動娛樂、內容創作、身份驗證、拍照、電商等層面激發大量的創新應用場景，甚至改變很多傳統行業的運作模式。

AI+3D，激活更多創新的應用場景

隨著越來越多的智慧型手機配備3D感知硬體，AI算法的作用也越加凸顯，只有兩者的緊密協作，才能夠將完美的影像體驗帶給最終用戶，缺一不可。為此，商湯科技一直積極與合作夥伴攜手共進，將AI+3D相關產品和技術充分應用於手機等智能終端當中。

比如，通過AI+3D進行「物品重建」。用戶只需拿手機沿著物體360度環繞掃描，就能將其掃描成數字模型，並用於3D列印、3D/AR相冊預覽、短視頻直播內容生成，或植入到遊戲、電商商品展示等場景。特別是後者，它可讓顧客通過翻轉方式查看物品外觀，告別翻看照片的麻煩。

除物品重建，還可以「人臉重建」。用戶不僅可以體驗比2D美顏更加精美的3D美顏功能，還可足不出戶輕鬆地進行虛擬試妝，甚至通過「3D微整形」來模擬整形效果。

AI+3D讓手機就能成為體感設備。玩家可低成本地暢玩體感遊戲，而內容創作者則藉助商湯的Avatar技術打造自己的虛擬形象，例如虛擬主播、虛擬講解員或者虛擬教師，通過表情、動作進行驅動，這會為互動娛樂、文旅乃至教育打造新的發展模式。

AI+3D也將在很大程度上推動移動AR朝向3D AR方向發展。基於RGBD SLAM可重建真實環境的3D結構，準確將虛擬元素植入到真實環境中，呈現真實的遮擋、碰撞、反彈等效果。

有了3D AR，手機還能搖身一變成為更強大的AR測量尺，實現遠超基於2D方案的測量精度，場景覆蓋率到初始化耗時，還可以自動檢測並測量立體幾何物體。

AI+3D也將讓3D人臉識別成為更便捷、更安全的解鎖或支付方式。

媲美單反的大景深效果一直是手機人像拍照所追求的方向，3D視覺技術可以讓人物等主體與背景的過渡效果更加自然、更加精準。而在電商行業，AI+3D可以讓AR試妝、AR試衣、AR家居更加逼真，滿足多角度充分預覽，促成購買行為。

放眼汽車行業，AI+3D技術能夠實現更加精準的車外人、車、物識別和距離感知，有力推動自動駕駛的發展。商湯科技也正以「攝像頭為主、多傳感器融合」的解決方案，研發L4級自動駕駛解決方案。而在泛工業領域，AI+3D可以為機械臂賦予3D感知能力，準確判斷物體所處的位置、尺寸、形狀等，從而進行精準的抓取，或是進行自動化的品質檢測。

《Prediction Machines》一書中曾提到：「當某種基礎產品價格大幅下降的時候，才是整個世界發生變化的基礎」。3D視覺技術呈現出的也是這樣一個趨勢。放眼未來，3D視覺技術還有更多創新空間。首先硬體成本的下降使其更加普及，支持的工作距離更遠，而AI技術隨著表達能力將不斷增強，算法模型的小型化等趨勢，可讓深度信息處理更高效，3D效果更逼真、更穩定，性能更快，同時硬體資源佔用率更低。一方面不斷優化現有應用的體驗，另一方面進一步開拓更多應用可能。

新的10年， AI+3D將成為變革行業發展的全新引擎。

讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

相關焦點

2020,暢想人工智慧3D感知技術的未來

港科大教授權龍:三維視覺重新定義人工智慧安防

「人工智慧第一股」依圖科技衝刺科創板,按下國產晶片加速鍵

三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇

研發空間智能技術,「宸境科技」想要打造城市級別鏡像世界

後浪超前浪,商湯曠視等AI獨角獸成機器視覺超級玩家

從20 篇ICCV 2017錄用論文,看商湯科技四大攻堅領域|ICCV 2017

那些影響「安防新十年」的世界級科學家們

中國機器視覺公司前10強

人工智慧開啟視覺處理新篇章:如何更好的理解這個世界

商湯科技AR特效引領短視頻和直播新潮流

機器之心「AI00」十一月最新榜單:兩家國內公司新上榜

對話商湯科技徐立:AI技術突破非連續性,質變存在偶然性

重新定義行業,「第二屆中國人工智慧安防峰會」萬字長文回顧

人工智慧領域的獨角獸公司地平線和商湯科技有什麼不同?

【正定數博會】史軍:機器視覺技術將重新定義智能車輛和交通

騰訊馬化騰、商湯科技湯曉鷗等六位大佬深度解讀人工智慧的過去...

人臉識別技術獨角獸商湯科技最新估值113億美金,憑什麼?

2019機器之心人工智慧年度獎項公布:關注創業先鋒,聚焦產品案例

全息投影驚豔WAIC背後,商湯科技眼中的AI創新策源力是什麼?