編者按:本周,諸多企業已開始陸續返崗,通勤路上、辦公室內,大家更加需要注意嚴格防護。這裡,商湯君繼續為大家分享人工智慧的精彩報導和技術展望,帶來一篇AI+3D技術的深度內容,一起來感受機器感知技術的快速演進和美好未來。本文作者系商湯科技移動智能事業群副總裁、智能終端業務CTO王子彬,商湯科技智能終端業務3D產品負責人李啟銘。
如果說,AI的快速發展,讓機器初步具備了看懂平面世界的能力。
那麼,下一個10年,AI+3D將讓機器能夠更深刻地感知和理解我們的三維世界,並重新定義我們的生活、娛樂和工作方式。
賦予機器感知三維世界的「眼睛」
人類擁有與生俱來的3D環境感知能力,這是因為我們能夠用兩隻眼睛來捕捉圖像,通過大腦處理形成立體視覺,從而辨認物體的形狀、他人的動作,感知我們和對方的距離,並輕鬆自然地跟這個三維世界進行交互。
人類也在不斷努力為機器賦予和我們一樣的3D感知能力,讓機器能夠「看懂」我們做出的動作,並給予相應的反饋,或是讓機器知道「自己周圍有什麼」,甚至將其描繪出來。
比如,通過體感控制畫面中的遊戲人物,在家和朋友來一場棒球賽或是田徑比賽,而不是只能單調地坐在沙發上操控手柄;
將下一代汽車通過增強現實(AR)技術投射到桌面上,客戶可以親自「打開」車門甚至現場「拆解」內部結構,直觀地提出修改建議;
派無人機深入森林或洞穴,一邊前行一邊繪製周邊場景的三維圖像,幫助我們探索自然環境;
讓自動駕駛汽車,能夠像人一樣,做出合理的路徑規劃,讓出行更具效率且更加安全……
3D感知技術能夠給各行各業帶來創新的發展模式,無論是豐富我們的娛樂體驗,還是提升我們的工作效率,便捷我們的出行體驗,或是改變我們探索自然的方式……
為了賦予機器感知三維世界的「眼睛」,早在上世紀70年代,工業界便開始應用雷射雷達、結構光、ToF(飛行時間)等3D感知技術,用於測量、掃描物體,以提高生產效率。
初期的自動駕駛汽車,則大量應用雷射雷達作為傳感設備,提升對環境的感知能力。
直到近10多年,家用遊戲機廠商將外接體感設備帶到了普通人的視野當中,創造出體感遊戲等新奇體驗。
而在2017年,結構光系統更是首次集成到了手機上,實現安全性更高的人臉身份驗證。
今天,小型化的結構光和ToF出現在了越來越多的智慧型手機上。
相較於結構光,ToF支持的工作距離更長,適用於更加多元化的場景,同時佔用空間更小,更易集成進小型化的終端設備。
在未來一段時間內,這兩種感知技術都將共存,且因不同使用場景需求,在不同行業領域中長期發展。
而新的10年,也將是小型化3D感知硬體快速普及、全面走向大眾的10年。
但是,硬體只是基礎,如同人們的雙眼,只是讓我們具備了捕捉立體圖像信息的能力,真正理解萬物和人類之間的各類交互行為,依靠的還是我們大腦的學習能力。
而3D感知硬體從工業界走向大眾,消費者對這項技術自然也會抱有更高的期待,因此要具備更加通用的場景感知能力。
對於機器來說,能學習這些能力的「大腦」,就是人工智慧(AI)技術。
如今,AI和3D這兩大革命性的技術,正在產生絕妙的化學反應。
很快,在AI+3D技術的加持下,僅通過智慧型手機等小型終端設備,就能做到很多以往需要專業硬體設備才能夠實現的事情,並因此讓這些事情變得更加簡單,成本更低,讓眾多的應用場景從不可能變成可能。
AI+3D,很有希望成為掀起新10年行業變革的一項感知技術。
AI技術,讓3D感知不斷學習
機器依靠攝像頭來捕捉現實世界的影像。
傳統的RGB攝像頭僅能捕獲場景中的色彩信息,無法感知現實世界的三維結構,無論遠近,對機器來說都只是一個2D平面。
3D感知硬體的作用,就是在RGB的基礎上增加Depth這一深度信息。
多一層信息維度,也就多了一層信息處理的複雜度。不僅信息量更大,隨之產生的技術挑戰也越多。
儘管結構光、ToF等技術在過去幾年間已經不斷小型化,但受限於圖像處理算法的瓶頸,機器的3D感知能力,並未被充分挖掘。
2012年,AI技術在計算機視覺領域中取得的突破,也使其成為了驅動3D感知技術新的引擎。
AI可以通過對大量數據信息的學習,自行總結其中的規律和特徵,從而比傳統算法模式更快地達到更好的結果。
這就為機器開創了學習理解三維世界的全新方法,諸如更加精細地識別場景中人和物的相互關係,快速重建人臉、人體和物體的三維模型,快速測量各種物體的三維信息,賦予機械臂感知物體的立體型態,更高效率跟蹤人體關鍵點和動作……
可以說,AI技術能夠在相同的硬體能力上,更快速地實現更好的效果,相應地,它也能夠彌補硬體能力的不足,在相對較低成本的硬體上達到媲美高端硬體帶來的效果。
隨著3D感知硬體的廣泛普及,AI與3D的有效結合就將非常重要,兩者將密不可分:
首先,AI+3D可以進一步優化感知效果,提升用戶體驗。以動作捕捉為例,結合對深度信息的高效處理,能夠整體提升肢體關鍵點的穩定性、準確性以及運動的穩定性和自然度,精準呈現人在三維空間中的動作姿態變化;第二,AI+3D可以更加高效地應用和處理深度信息,理解環境中人物間的相互關係。例如為自動駕駛提供車外的人、車、物的識別和距離感知,或為增強現實應用帶來逼真的虛擬元素遮擋、旋轉、碰撞效果,又在智慧型手機等輕量級設備上完成高精度的3D模型建模;第三,AI+3D可以更加精準地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下,得益於對深度信息的快速處理,在分割效果上就能夠比2D感知技術有很大的提升,可提供不同人物之間的語義信息,亦可結合3D相機系統帶來更逼近單反的攝影效果;第四,深度信息與紅外圖像的結合,可以讓3D感知適用於更多的場景,使之不受環境光線的影響,在暗態場景下依然能感知這個世界。
目前,商湯科技已經將AI技術廣泛地應用於3D感知的各個領域,開發了基於ToF等3D感知硬體的技術與產品,包括人臉與人體3D重建、物體重建、3D全身關鍵點跟蹤、3D Avatar驅動工具、AR測量、AR場景互動、AR導航、3D人臉認證、3D攝影等等。
在提供算法的同時,商湯科技也與3D感知硬體的合作夥伴緊密合作,為行業提供軟硬一體的整體解決方案,並由此驅動AI+3D的發展和生態構建,推動3D感知技術給智慧型手機、娛樂行業、自動駕駛汽車、泛工業領域發展帶來變革。
AI+3D,開創應用場景的更多可能
AI+3D正成為移動終端設備發展的必然趨勢。
自2017年以來,智慧型手機攝像系統從單攝發展到雙攝,再發展到如今多攝搭配ToF的組合,攝像頭數量的大幅躍進,其對AI的依賴性也會越來越高,只有兩者的緊密協作,才能夠將完美的影像體驗帶給最終用戶,缺一不可。
同樣,越來越多的智能硬體也在逐漸具備3D感知能力。
為此,商湯科技一直積極與合作夥伴攜手共進,將AI+3D相關產品和技術充分應用於手機等智能終端當中,從人機互動體驗、AR、身份認證、拍照等層面,全面推動移動終端邁向AI+3D時代。
首先,AI+3D讓機器真正具備了感知三維世界的能力,它可以將現實世界的物體進行數位化建模,實現「物品重建」。
藉助商湯科技的通用3D重建技術,從毛絨玩具、紙箱、書包、鞋子到雕塑,用戶只需拿手機沿著物體360度環繞掃描,就能將其掃描成數位化的模型。
生成的模型文件可直接用於3D列印、3D/AR相冊預覽,也可應用於短視頻直播的內容生成並設置動畫,也可植入到如AR養寵等遊戲場景,或是電商的商品展示或預覽等場景中。
除了物品重建,還可以做「人臉重建」。
2018年,商湯科技助力合作夥伴推出了市面上第一款具備3D人臉重建功能的手機。
3D人臉重建能夠讓人們對美的追求從平面走向立體。消費者不僅可以體驗比2D美顏在五官上更加精美的3D美顏功能,還可足不出戶輕鬆地進行虛擬試妝,直觀查看上妝效果,甚至還能直觀體驗「3D微整形」來模擬整形效果,給醫療美容行業帶來新的用戶體驗。
AI+3D更開創了人機互動的新方式,它可以讓智慧型手機成為一臺體感設備,實現精準的表情識別、肢體動作關鍵點捕捉。
由此一來,玩家不再需要外接體感控制器,就可方便地暢玩體感遊戲,而內容創作者則可讓自己化身為一個3D Avatar虛擬形象,例如虛擬遊戲人物、虛擬主播、虛擬講解員或者虛擬教師,通過自己的表情、動作來驅動虛擬形象的相應行為。
這種創新的虛實結合的互動形式,能夠為遊戲、直播、文旅乃至教育打造新的發展模式。
AI+3D也將在很大程度上推動移動AR朝向3D AR方向發展。
此前,相信很多用戶經常會發現AR投射出來的虛擬形象並沒有真正融入到現實場景中,只像是一張貼在屏幕上的貼紙。
隨著商湯科技將基於ToF的AI+3D技術賦能於AR應用,提供RGBD SLAM(同時定位與地圖構建)方案,將能夠充分利用深度信息重建真實環境的3D結構,準確還原虛擬物體和真實環境中物體的相對位置,呈現遮擋、碰撞、反彈等效果,讓虛擬和現實做到「真融合」。
為了推動SLAM這一AR關鍵技術領域的發展,商湯科技還與浙江大學共建了「浙江大學-商湯三維視覺聯合實驗室」,在SLAM和三維重建等領域的前沿研究展開深入合作,並推出了高精定位與內容增強解決方案,不僅可以助力實現高精度的AR導航,還能讓用戶在此過程中與融入真實世界的虛擬景觀即時互動。
而有了3D AR,手機還能搖身一變成為一把更為好用的AR測量尺。
以商湯科技的3D AR測量產品為例,從測量精度,場景覆蓋率到初始化耗時,都遠超基於2D攝像頭的AR測量方案,同時不僅能測量長度,甚至還可以檢測立體幾何物體並自動識別關鍵點,完成測量。
AI+3D也將讓3D人臉識別得到更加廣泛的應用,並成為更便捷、更安全的解鎖或支付方式。
商湯科技不僅在2018年助力合作夥伴推出了市面上首款基於結構光的3D人臉識別安卓手機,還於同年底推出了基於ToF的3D人臉識別方案,為客戶提供多種解決方案。
不僅僅是智慧型手機,智能門鎖等IoT設備也將邁向3D感知時代。
今年,商湯科技推出了基於雙目視覺的3D人臉識別智能門鎖解決方案,支持在大角度和暗光環境下通過人臉驗證準確解鎖,並能有效防範各類非活體攻擊,為用戶帶來便捷、安全的入戶體驗。
媲美單反的大景深效果一直是手機人像拍照所追求的方向。
早在2016年,商湯科技便推出了基於雙攝系統的拍照虛化功能,如今更是推出了基於3D相機的虛化技術,精準的深度信息結合AI技術的處理,可以讓人物等主體與背景的過渡效果更加自然、更加精準,無限逼近單反級別的虛化效果。
在電商行業,無論是AR試妝、AR試衣、AR家居已不是新鮮概念,但AI+3D不僅可讓虛擬上妝、試衣等效果更加精準,更讓消費者能夠轉動頭部、身體,從更多維的視角查看最終效果,充分消除「不知道是否符合自己」的疑惑,進一步促成購買行為。
商家還可通過「物品重建」,將物品轉化為數字模型,讓顧客簡單翻轉就能360度地了解物品外觀,並放置到真實場景中預覽,而無需像現在這樣一一翻看多張不同角度的靜態照片。
放眼汽車行業,AI+3D技術能夠實現更加精準的車外人、車、物識別和距離感知,從而有力推動自動駕駛在新10年的重要發展。
而在泛工業領域,AI+3D將進一步優化工業生產流程,不斷提升生產效率。
它可以為機械臂賦予3D感知能力,通過高精準的SLAM、物體重建和測量等技術,判斷立體物體所處的位置,以及相應的尺寸、形狀和質量等信息,從而進行精準的抓取,或是進行自動化的品質檢測,實現高標準的質量把控,有力提升工業生產的智能化程度,降本增效。
《Prediction Machines》一書中曾提到:「當某種基礎產品價格大幅下降的時候,才是整個世界發生變化的基礎」。
3D感知硬體的普及和AI技術的加持,讓以往工業界才能實現的應用方式來到大眾視野,降低體驗成本的同時,應用場景也更加拓寬,變得更加普及,從基礎改變我們的生活、娛樂、出行和工作方式。
新的10年,機器的感知能力將從2D走向3D,AI+3D也將成為變革行業發展的全新引擎。