2020,暢想人工智慧3D感知技術的未來

2020-12-22 商湯科技

編者按：本周，諸多企業已開始陸續返崗，通勤路上、辦公室內，大家更加需要注意嚴格防護。這裡，商湯君繼續為大家分享人工智慧的精彩報導和技術展望，帶來一篇AI+3D技術的深度內容，一起來感受機器感知技術的快速演進和美好未來。本文作者系商湯科技移動智能事業群副總裁、智能終端業務CTO王子彬，商湯科技智能終端業務3D產品負責人李啟銘。

如果說，AI的快速發展，讓機器初步具備了看懂平面世界的能力。

那麼，下一個10年，AI+3D將讓機器能夠更深刻地感知和理解我們的三維世界，並重新定義我們的生活、娛樂和工作方式。

賦予機器感知三維世界的「眼睛」

人類擁有與生俱來的3D環境感知能力，這是因為我們能夠用兩隻眼睛來捕捉圖像，通過大腦處理形成立體視覺，從而辨認物體的形狀、他人的動作，感知我們和對方的距離，並輕鬆自然地跟這個三維世界進行交互。

人類也在不斷努力為機器賦予和我們一樣的3D感知能力，讓機器能夠「看懂」我們做出的動作，並給予相應的反饋，或是讓機器知道「自己周圍有什麼」，甚至將其描繪出來。

比如，通過體感控制畫面中的遊戲人物，在家和朋友來一場棒球賽或是田徑比賽，而不是只能單調地坐在沙發上操控手柄；

將下一代汽車通過增強現實（AR）技術投射到桌面上，客戶可以親自「打開」車門甚至現場「拆解」內部結構，直觀地提出修改建議；

派無人機深入森林或洞穴，一邊前行一邊繪製周邊場景的三維圖像，幫助我們探索自然環境；

讓自動駕駛汽車，能夠像人一樣，做出合理的路徑規劃，讓出行更具效率且更加安全……

3D感知技術能夠給各行各業帶來創新的發展模式，無論是豐富我們的娛樂體驗，還是提升我們的工作效率，便捷我們的出行體驗，或是改變我們探索自然的方式……

為了賦予機器感知三維世界的「眼睛」，早在上世紀70年代，工業界便開始應用雷射雷達、結構光、ToF（飛行時間）等3D感知技術，用於測量、掃描物體，以提高生產效率。

初期的自動駕駛汽車，則大量應用雷射雷達作為傳感設備，提升對環境的感知能力。

直到近10多年，家用遊戲機廠商將外接體感設備帶到了普通人的視野當中，創造出體感遊戲等新奇體驗。

而在2017年，結構光系統更是首次集成到了手機上，實現安全性更高的人臉身份驗證。

今天，小型化的結構光和ToF出現在了越來越多的智慧型手機上。

相較於結構光，ToF支持的工作距離更長，適用於更加多元化的場景，同時佔用空間更小，更易集成進小型化的終端設備。

在未來一段時間內，這兩種感知技術都將共存，且因不同使用場景需求，在不同行業領域中長期發展。

而新的10年，也將是小型化3D感知硬體快速普及、全面走向大眾的10年。

但是，硬體只是基礎，如同人們的雙眼，只是讓我們具備了捕捉立體圖像信息的能力，真正理解萬物和人類之間的各類交互行為，依靠的還是我們大腦的學習能力。

而3D感知硬體從工業界走向大眾，消費者對這項技術自然也會抱有更高的期待，因此要具備更加通用的場景感知能力。

對於機器來說，能學習這些能力的「大腦」，就是人工智慧（AI）技術。

如今，AI和3D這兩大革命性的技術，正在產生絕妙的化學反應。

很快，在AI+3D技術的加持下，僅通過智慧型手機等小型終端設備，就能做到很多以往需要專業硬體設備才能夠實現的事情，並因此讓這些事情變得更加簡單，成本更低，讓眾多的應用場景從不可能變成可能。

AI+3D，很有希望成為掀起新10年行業變革的一項感知技術。

AI技術，讓3D感知不斷學習

機器依靠攝像頭來捕捉現實世界的影像。

傳統的RGB攝像頭僅能捕獲場景中的色彩信息，無法感知現實世界的三維結構，無論遠近，對機器來說都只是一個2D平面。

3D感知硬體的作用，就是在RGB的基礎上增加Depth這一深度信息。

多一層信息維度，也就多了一層信息處理的複雜度。不僅信息量更大，隨之產生的技術挑戰也越多。

儘管結構光、ToF等技術在過去幾年間已經不斷小型化，但受限於圖像處理算法的瓶頸，機器的3D感知能力，並未被充分挖掘。

圖片來源於網絡

2012年，AI技術在計算機視覺領域中取得的突破，也使其成為了驅動3D感知技術新的引擎。

AI可以通過對大量數據信息的學習，自行總結其中的規律和特徵，從而比傳統算法模式更快地達到更好的結果。

這就為機器開創了學習理解三維世界的全新方法，諸如更加精細地識別場景中人和物的相互關係，快速重建人臉、人體和物體的三維模型，快速測量各種物體的三維信息，賦予機械臂感知物體的立體型態，更高效率跟蹤人體關鍵點和動作……

可以說，AI技術能夠在相同的硬體能力上，更快速地實現更好的效果，相應地，它也能夠彌補硬體能力的不足，在相對較低成本的硬體上達到媲美高端硬體帶來的效果。

隨著3D感知硬體的廣泛普及，AI與3D的有效結合就將非常重要，兩者將密不可分：

首先，AI+3D可以進一步優化感知效果，提升用戶體驗。以動作捕捉為例，結合對深度信息的高效處理，能夠整體提升肢體關鍵點的穩定性、準確性以及運動的穩定性和自然度，精準呈現人在三維空間中的動作姿態變化；第二，AI+3D可以更加高效地應用和處理深度信息，理解環境中人物間的相互關係。例如為自動駕駛提供車外的人、車、物的識別和距離感知，或為增強現實應用帶來逼真的虛擬元素遮擋、旋轉、碰撞效果，又在智慧型手機等輕量級設備上完成高精度的3D模型建模；第三，AI+3D可以更加精準地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下，得益於對深度信息的快速處理，在分割效果上就能夠比2D感知技術有很大的提升，可提供不同人物之間的語義信息，亦可結合3D相機系統帶來更逼近單反的攝影效果；第四，深度信息與紅外圖像的結合，可以讓3D感知適用於更多的場景，使之不受環境光線的影響，在暗態場景下依然能感知這個世界。

目前，商湯科技已經將AI技術廣泛地應用於3D感知的各個領域，開發了基於ToF等3D感知硬體的技術與產品，包括人臉與人體3D重建、物體重建、3D全身關鍵點跟蹤、3D Avatar驅動工具、AR測量、AR場景互動、AR導航、3D人臉認證、3D攝影等等。

在提供算法的同時，商湯科技也與3D感知硬體的合作夥伴緊密合作，為行業提供軟硬一體的整體解決方案，並由此驅動AI+3D的發展和生態構建，推動3D感知技術給智慧型手機、娛樂行業、自動駕駛汽車、泛工業領域發展帶來變革。

AI+3D，開創應用場景的更多可能

AI+3D正成為移動終端設備發展的必然趨勢。

自2017年以來，智慧型手機攝像系統從單攝發展到雙攝，再發展到如今多攝搭配ToF的組合，攝像頭數量的大幅躍進，其對AI的依賴性也會越來越高，只有兩者的緊密協作，才能夠將完美的影像體驗帶給最終用戶，缺一不可。

同樣，越來越多的智能硬體也在逐漸具備3D感知能力。

為此，商湯科技一直積極與合作夥伴攜手共進，將AI+3D相關產品和技術充分應用於手機等智能終端當中，從人機互動體驗、AR、身份認證、拍照等層面，全面推動移動終端邁向AI+3D時代。

首先，AI+3D讓機器真正具備了感知三維世界的能力，它可以將現實世界的物體進行數位化建模，實現「物品重建」。

藉助商湯科技的通用3D重建技術，從毛絨玩具、紙箱、書包、鞋子到雕塑，用戶只需拿手機沿著物體360度環繞掃描，就能將其掃描成數位化的模型。

生成的模型文件可直接用於3D列印、3D/AR相冊預覽，也可應用於短視頻直播的內容生成並設置動畫，也可植入到如AR養寵等遊戲場景，或是電商的商品展示或預覽等場景中。

除了物品重建，還可以做「人臉重建」。

2018年，商湯科技助力合作夥伴推出了市面上第一款具備3D人臉重建功能的手機。

3D人臉重建能夠讓人們對美的追求從平面走向立體。消費者不僅可以體驗比2D美顏在五官上更加精美的3D美顏功能，還可足不出戶輕鬆地進行虛擬試妝，直觀查看上妝效果，甚至還能直觀體驗「3D微整形」來模擬整形效果，給醫療美容行業帶來新的用戶體驗。

AI+3D更開創了人機互動的新方式，它可以讓智慧型手機成為一臺體感設備，實現精準的表情識別、肢體動作關鍵點捕捉。

由此一來，玩家不再需要外接體感控制器，就可方便地暢玩體感遊戲，而內容創作者則可讓自己化身為一個3D Avatar虛擬形象，例如虛擬遊戲人物、虛擬主播、虛擬講解員或者虛擬教師，通過自己的表情、動作來驅動虛擬形象的相應行為。

這種創新的虛實結合的互動形式，能夠為遊戲、直播、文旅乃至教育打造新的發展模式。

AI+3D也將在很大程度上推動移動AR朝向3D AR方向發展。

此前，相信很多用戶經常會發現AR投射出來的虛擬形象並沒有真正融入到現實場景中，只像是一張貼在屏幕上的貼紙。

隨著商湯科技將基於ToF的AI+3D技術賦能於AR應用，提供RGBD SLAM（同時定位與地圖構建）方案，將能夠充分利用深度信息重建真實環境的3D結構，準確還原虛擬物體和真實環境中物體的相對位置，呈現遮擋、碰撞、反彈等效果，讓虛擬和現實做到「真融合」。

為了推動SLAM這一AR關鍵技術領域的發展，商湯科技還與浙江大學共建了「浙江大學-商湯三維視覺聯合實驗室」，在SLAM和三維重建等領域的前沿研究展開深入合作，並推出了高精定位與內容增強解決方案，不僅可以助力實現高精度的AR導航，還能讓用戶在此過程中與融入真實世界的虛擬景觀即時互動。

而有了3D AR，手機還能搖身一變成為一把更為好用的AR測量尺。

以商湯科技的3D AR測量產品為例，從測量精度，場景覆蓋率到初始化耗時，都遠超基於2D攝像頭的AR測量方案，同時不僅能測量長度，甚至還可以檢測立體幾何物體並自動識別關鍵點，完成測量。

AI+3D也將讓3D人臉識別得到更加廣泛的應用，並成為更便捷、更安全的解鎖或支付方式。

商湯科技不僅在2018年助力合作夥伴推出了市面上首款基於結構光的3D人臉識別安卓手機，還於同年底推出了基於ToF的3D人臉識別方案，為客戶提供多種解決方案。

不僅僅是智慧型手機，智能門鎖等IoT設備也將邁向3D感知時代。

今年，商湯科技推出了基於雙目視覺的3D人臉識別智能門鎖解決方案，支持在大角度和暗光環境下通過人臉驗證準確解鎖，並能有效防範各類非活體攻擊，為用戶帶來便捷、安全的入戶體驗。

媲美單反的大景深效果一直是手機人像拍照所追求的方向。

早在2016年，商湯科技便推出了基於雙攝系統的拍照虛化功能，如今更是推出了基於3D相機的虛化技術，精準的深度信息結合AI技術的處理，可以讓人物等主體與背景的過渡效果更加自然、更加精準，無限逼近單反級別的虛化效果。

在電商行業，無論是AR試妝、AR試衣、AR家居已不是新鮮概念，但AI+3D不僅可讓虛擬上妝、試衣等效果更加精準，更讓消費者能夠轉動頭部、身體，從更多維的視角查看最終效果，充分消除「不知道是否符合自己」的疑惑，進一步促成購買行為。

商家還可通過「物品重建」，將物品轉化為數字模型，讓顧客簡單翻轉就能360度地了解物品外觀，並放置到真實場景中預覽，而無需像現在這樣一一翻看多張不同角度的靜態照片。

放眼汽車行業，AI+3D技術能夠實現更加精準的車外人、車、物識別和距離感知，從而有力推動自動駕駛在新10年的重要發展。

而在泛工業領域，AI+3D將進一步優化工業生產流程，不斷提升生產效率。

它可以為機械臂賦予3D感知能力，通過高精準的SLAM、物體重建和測量等技術，判斷立體物體所處的位置，以及相應的尺寸、形狀和質量等信息，從而進行精準的抓取，或是進行自動化的品質檢測，實現高標準的質量把控，有力提升工業生產的智能化程度，降本增效。

《Prediction Machines》一書中曾提到：「當某種基礎產品價格大幅下降的時候，才是整個世界發生變化的基礎」。

3D感知硬體的普及和AI技術的加持，讓以往工業界才能實現的應用方式來到大眾視野，降低體驗成本的同時，應用場景也更加拓寬，變得更加普及，從基礎改變我們的生活、娛樂、出行和工作方式。

新的10年，機器的感知能力將從2D走向3D，AI+3D也將成為變革行業發展的全新引擎。

2020,暢想人工智慧3D感知技術的未來

相關焦點

讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

人工智慧3D傳感技術「獨角獸」企業創始人:黃源浩

2020西安全球硬科技創新大會-智能感知與理解技術發展峰會舉辦

暢想未來出行場景 90後在線「種草」

國安信銀參投企業,奧比中光3D視覺感知技術獲廣東省委書記李希...

文安智能創始人陶海:人工智慧進入"感知+認知+協同"的2.0時代

奧比中光:打破國際3D感知技術壟斷

能源——人類對未來的終極暢想

千米感知誤差低於5%,嬴徹發布全球領先的超長距精準3D感知技術

龍池牡丹王封:人工智慧是對感知、智力、體力的封裝

臺灣清華大學與Facebook再度攻破3D照片技術

人工智慧全球女性榜單入選者、哈工大教授秦兵專題報導:以中文技術...

簡述物聯網感知技術 - CSDN

聚焦四大熱點議題暢想智慧醫療未來 OFweek2019中國智慧醫療產業...

CEE·2019北京消費電子展,遇見人工智慧未來

安森美半導體創新技術應對汽車感知新挑戰

人工智慧:谷歌下圍棋贏柯潔,微軟開始造汽車改變未來

軍事智能中的「態勢感知」是什麼?|追問人工智慧

人工智慧語義感知將幫助有運動障礙的聾啞人實現順暢交流

更要只爭朝夕,人工智慧的尷尬2019及破局2020|三大技術九大行業解析