讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

2020-12-03 36氪

本文作者:

王子彬,商湯科技移動智能事業群副總裁、智能終端業務CTO

李啟銘,商湯科技智能終端業務3D產品負責人

***

在上世紀70年代,工業界開始運用3D視覺技術測量和掃描物件,提高生產效率。最近10多年,家用遊戲機廠商將3D體感外設帶入大眾視野,帶來了新奇的體感遊戲。近三年,越來越多的智慧型手機開始配備3D傳感器,並在AI的加持下,開拓出了更多更具想像空間的應用場景。未來10年,AI+3D將無處不在,給我們的生活和工作帶來深遠影響。

賦予機器感知三維世界的「眼睛」

人類擁有與生俱來的3D環境感知和理解能力,這是因為我們用兩隻眼睛來捕捉圖像,通過大腦處理形成立體視覺,從而辨認物體的形狀方位、他人的動作,輕鬆自然地跟這個三維世界交互。

能否讓機器也能感知三維世界呢?或許很多人會想到給機器添加一顆攝像頭。但普通RGB攝像頭拍攝的現實世界的影像,僅能採集場景中的色彩信息,無法採集物體和攝像頭之間的距離和方位。也就是說,無論場景中的三維結構有多麼豐富,對機器來說都是一個平面,一個二維世界。

3D視覺技術,就是賦予機器感知三維世界的信息和能力,並給我們帶來顛覆性的價值。試想一下,將汽車立體模型通過增強現實(AR)技術投射出來,客戶可360度觀看,還能「開車門」,由此直觀地提出意見,而不是一張張翻看照片;或者派無人機探索森林或洞穴,一邊前行一邊繪製周邊場景的三維地形,而不是我們拿著一張平面地圖親自探險……

事實上,3D視覺技術目前已經在工業界取得成功,但在消費領域,受限於3D感知硬體的成本和體積、計算能力等困擾,很多場景並未激活。除了掃地機器人等個別終端外,我們的智慧型手機等行動裝置,還處在二維世界裡。但近幾年,3D視覺技術終於開始走向個人終端,機器認知世界的新大門正在打開。

3D感知硬體小型化,ToF漸成主流

實現3D視覺能力,3D感知硬體的加持至關重要。目前主流的3D感知硬體技術包括雙目視覺、結構光、ToF(飛行時間)以及雷射雷達。

雙目視覺系統是通過雙攝像頭同時進行成像,然後通過對比兩個圖像中每個像素點的相對位置差,來計算出該像素點在三維環境中的位置,類似於人雙眼的工作原理。

結構光和ToF則能在RGB的基礎上直接提供深度信息,屬於RGB-D方案,在精度上比雙目視覺更勝一籌。其中,結構光是通過投射大量光斑到物體上,然後根據光斑的形變量來判斷其所處深度;ToF則是向物體發射連續的光脈衝信號,並接收返回的信號,通過計算信號發射和返回的時間來計算深度信息。相比之下,結構光在較短距離內擁有更高精度,而ToF支持的工作距離更長,適用於更加多元化的場景,且傳感器模塊少,體積小。

雷射雷達的原理與ToF類似,但其感知距離更遠,範圍更大,精度也更高。很多自動駕駛汽車通過雷射雷達來感知周圍環境,不過缺點是成本過於高昂,只適用於特定場景。

在最近的三年,我們觀察到的一個顯著趨勢是ToF和結構光的小型化,使得它成功地應用到了手機當中。而ToF以其體積更小、適用場景更廣等優勢,逐漸受到更多廠商青睞,很多最新的旗艦手機都將ToF作為一大賣點。據統計,2019年有約5000萬臺配備ToF的手機出貨,業內預計2020年、2021年將分別達到1.5億和5億臺,逐漸呈現出爆發態勢,2020年全球智慧型手機3D感知硬體市場的規模也將到達99.25億美元。

ToF在智慧型手機上的加速應用,有助於3D視覺技術的廣泛普及化,成為接下來10年中非常重要的科技趨勢。深入地觸達消費市場,也激活了更多的應用創新可能。

AI技術,突破3D視覺技術的難點

3D感知硬體能夠提供距離、深度等數據信息,但我們要的並不是單純的數據,而是基於這些數據,通過不同的表達和理解方式,實現不同的應用。比如對三維場景進行數位化建模,或者繪製三維地圖,從而讓機器能夠實時感知自己在所處空間中的位置,以便在運動時及時避開障礙物等。這需要根據深度信息生成深度圖像,並與RGB圖像,甚至是紅外圖像進行融合併完成大量計算。

但是,通過硬體感知的信息生成的深度圖像,往往存在因硬體性能限制而產生的瑕疵,例如在細小或複雜交錯的物體之間,出現深度信息估計錯誤等問題。此外,精準度、魯棒性、實時性、效率等都是決定實際應用效果的關鍵。這都需要依靠額外的算法進行實時處理予以彌補和增強。

在工業場景中,由於應用相對單一,且3D感知硬體大多處於固定或平穩狀態,很多難題可以通過編寫特定算法加以解決。但在移動終端上,不規則的抖動、晃動等情況帶來的難以預估的挑戰,傳統算法難以突破。

2012年,AI在計算機視覺領域取得突破,給3D視覺技術發展也帶來了全新思路。AI可通過對大量實際數據進行學習,自行總結其中的規律和特徵。這種方法可以在短時間內,完成傳統算法需要多年才能突破的問題,有效彌補硬體能力的不足。

更為重要的是,AI不僅能感知場景中的三維結構,還能識別出場景中的三維物體是什麼,在做什麼。例如檢測人、物體,識別人的姿態,跟蹤物體的運行軌跡……這就進一步敞開了機器認知世界的新大門。

在我們看來,3D硬體的小型化,是3D視覺技術應用場景拓展和創新的硬體基礎,而AI技術則是真正的動力引擎。兩者密不可分,可以說,AI+3D視覺技術拐點已至。

AI+3D,緊密協作實現完美空間感知

目前,商湯科技已經將AI技術廣泛地應用於3D感知的各個領域,開發了基於ToF等3D感知硬體的技術與產品,包括人臉與人體3D重建、物體重建、3D全身關鍵點跟蹤、3D Avatar驅動工具、AR測量、AR場景互動、AR導航、3D人臉認證、3D攝影等等,均體現了AI+3D的顯著優勢。

首先,AI+3D可以進一步優化感知效果,提升用戶體驗。以動作捕捉為例,結合對深度信息的高效處理,能夠整體提升肢體關鍵點的穩定性、準確性以及運動的穩定性和自然度,精準呈現人在三維空間中的動作姿態變化;

第二,AI+3D可以更加高效地應用和處理深度信息,理解環境中人物間的相互關係。例如為AR帶來逼真的虛實融合和互動效果,在智慧型手機上完成高精度3D模型建模,或是為自動駕駛提供車外的人、車、物的識別和距離感知。

第三,AI+3D可以更加精準地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下,得益於對深度信息的快速處理,在分割效果上比2D感知技術有很大的提升,可提供不同人物之間的語義信息,亦可結合3D相機系統帶來更逼近單反的攝影效果;

第四,深度信息與紅外圖像的結合,可以讓3D感知適用於更多的場景,使之不受環境光線明暗的影響。

基於上述優勢,我們認為,AI+3D會從人機互動、互動娛樂、內容創作、身份驗證、拍照、電商等層面激發大量的創新應用場景,甚至改變很多傳統行業的運作模式。

AI+3D,激活更多創新的應用場景

隨著越來越多的智慧型手機配備3D感知硬體,AI算法的作用也越加凸顯,只有兩者的緊密協作,才能夠將完美的影像體驗帶給最終用戶,缺一不可。為此,商湯科技一直積極與合作夥伴攜手共進,將AI+3D相關產品和技術充分應用於手機等智能終端當中。

比如,通過AI+3D進行「物品重建」。用戶只需拿手機沿著物體360度環繞掃描,就能將其掃描成數字模型,並用於3D列印、3D/AR相冊預覽、短視頻直播內容生成,或植入到遊戲、電商商品展示等場景。特別是後者,它可讓顧客通過翻轉方式查看物品外觀,告別翻看照片的麻煩。

除物品重建,還可以「人臉重建」。用戶不僅可以體驗比2D美顏更加精美的3D美顏功能,還可足不出戶輕鬆地進行虛擬試妝,甚至通過「3D微整形」來模擬整形效果。

AI+3D讓手機就能成為體感設備。玩家可低成本地暢玩體感遊戲,而內容創作者則藉助商湯的Avatar技術打造自己的虛擬形象,例如虛擬主播、虛擬講解員或者虛擬教師,通過表情、動作進行驅動,這會為互動娛樂、文旅乃至教育打造新的發展模式。

AI+3D也將在很大程度上推動移動AR朝向3D AR方向發展。基於RGBD SLAM可重建真實環境的3D結構,準確將虛擬元素植入到真實環境中,呈現真實的遮擋、碰撞、反彈等效果。

有了3D AR,手機還能搖身一變成為更強大的AR測量尺,實現遠超基於2D方案的測量精度,場景覆蓋率到初始化耗時,還可以自動檢測並測量立體幾何物體。

AI+3D也將讓3D人臉識別成為更便捷、更安全的解鎖或支付方式。

媲美單反的大景深效果一直是手機人像拍照所追求的方向,3D視覺技術可以讓人物等主體與背景的過渡效果更加自然、更加精準。而在電商行業,AI+3D可以讓AR試妝、AR試衣、AR家居更加逼真,滿足多角度充分預覽,促成購買行為。

放眼汽車行業,AI+3D技術能夠實現更加精準的車外人、車、物識別和距離感知,有力推動自動駕駛的發展。商湯科技也正以「攝像頭為主、多傳感器融合」的解決方案,研發L4級自動駕駛解決方案。而在泛工業領域,AI+3D可以為機械臂賦予3D感知能力,準確判斷物體所處的位置、尺寸、形狀等,從而進行精準的抓取,或是進行自動化的品質檢測。

《Prediction Machines》一書中曾提到:「當某種基礎產品價格大幅下降的時候,才是整個世界發生變化的基礎」。3D視覺技術呈現出的也是這樣一個趨勢。放眼未來,3D視覺技術還有更多創新空間。首先硬體成本的下降使其更加普及,支持的工作距離更遠,而AI技術隨著表達能力將不斷增強,算法模型的小型化等趨勢,可讓深度信息處理更高效,3D效果更逼真、更穩定,性能更快,同時硬體資源佔用率更低。一方面不斷優化現有應用的體驗,另一方面進一步開拓更多應用可能。

新的10年, AI+3D將成為變革行業發展的全新引擎。

相關焦點

  • 2020,暢想人工智慧3D感知技術的未來
    這裡,商湯君繼續為大家分享人工智慧的精彩報導和技術展望,帶來一篇AI+3D技術的深度內容,一起來感受機器感知技術的快速演進和美好未來。本文作者系商湯科技移動智能事業群副總裁、智能終端業務CTO王子彬,商湯科技智能終端業務3D產品負責人李啟銘。如果說,AI的快速發展,讓機器初步具備了看懂平面世界的能力。
  • 港科大教授權龍:三維視覺重新定義人工智慧安防
    近日,由雷鋒網 & AI掘金志主辦的「第二屆中國人工智慧安防峰會」在杭州召開。峰會現場,香港科技大學教授,CVPR 2022、ICCV 2011大會主席,Altizure創始人權龍教授發表了題為《三維視覺重新定義人工智慧安防》的演講。
  • 「人工智慧第一股」依圖科技衝刺科創板,按下國產晶片加速鍵
    機器之心報導作者:徐丹從招股書看,已經很難用「計算機視覺」這個標籤來定義依圖。他是以人工智慧晶片技術和算法技術為核心,研發及銷售包含人工智慧算力硬體和軟體在內的人工智慧解決方案。從技術角度看,依圖覆蓋的技術包含人工智慧晶片、人工智慧算法技術(計算機視覺、語音技術、自然語言理解技術等;從業務角度看,依圖面向智能公共服務及智能商業業務領域,提供人工智慧行業解決方案。1)人工智慧算力硬體產品將依圖區別於計算機視覺公司的最主要標誌就是「AI 晶片」,依圖是 AI 晶片創業企業中少有的已實現流片且規模化應用的公司。
  • 三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇
    1 月 23 日,學術交流活動「AI 之眼,智見未來——3D 傳感&人工智慧前沿科技論壇」在深圳南山舉行。論壇由奧比中光承辦,中國自動化學會模式識別與機器智能專委會、中國人工智慧學會模式識別專委會主辦,指導單位是深圳市南山區科技創新局。
  • 研發空間智能技術,「宸境科技」想要打造城市級別鏡像世界
    在CTO雷加貝看來,空間智能技術讓人與計算機交互的界面從二維平面進入了三維空間,人們能更高效、直觀地互動以及獲取信息。其中,智慧城市是空間智能技術的核心落地場景之一,「宸境科技」已經與廣州南沙區政府合作推出了明珠灣鏡像世界。
  • 後浪超前浪,商湯曠視等AI獨角獸成機器視覺超級玩家
    機器視覺應用,四大AI獨角獸佔主流人工智慧與各行業融合成為不可逆轉的趨勢,尤其利用人工智慧技術紮根垂直行業應用的企業將會迎來爆發式發展,諸如圍繞機器視覺四大獨角獸備受資本青睞。受益於人工智慧技術廣泛應用,曠視、商湯科技、雲從科技與依圖科技在近年來吸晴無數,並成為行業領軍企業。
  • 從20 篇ICCV 2017錄用論文,看商湯科技四大攻堅領域|ICCV 2017
    今秋,在以水城而聞名的威尼斯,來自世界各地的三千多位學者薈萃一堂,共赴兩年一度的國際計算機視覺大會 (ICCV)。這次大會的一個重要亮點就是中國學者的強勢崛起。根據組委會公開的數字,會議 40% 的論文投稿來自中國的研究者。在中國的人工智慧浪潮中,商湯科技以及它與港中文的聯合實驗室無疑是其中最有代表性的力量。
  • 那些影響「安防新十年」的世界級科學家們
    上一個十年的安防技術創新,混沌、碎片、野蠻生長。項目工程為導向的技術部署模式,也使得基礎研究對這個行業的改變乏善可陳。而在自主創新與新基建的時代浪潮推動下,前沿技術將進一步走到臺前。那麼下一個十年安防技術的趨勢是什麼?「中國人工智慧安防峰會 」給出的答案是:城市大腦數字視網膜化、機器視覺三維化、數據建模聯邦學習化。
  • 中國機器視覺公司前10強
    8、速感科技:讓機器人認識世界,用機器人改變世界  速感科技是一家以機器視覺為核心的人工智慧創業公司。公司成立於2014年7月,並已先後完成兩輪融資。團隊主創人員為清華大學計算機系、信息設計系,北京航空航天大學計算機學院及美國賓夕法尼亞大學研究生與博士背景,並參與微軟亞洲研究院、國家重點基礎項目的技術合作。  目前公司的主要產品為以視覺跟隨為核心的智能跟隨機器人,面向智能無人機、機器人的系統化操作解決方案,並以機器視覺為主要核心模塊面向不同應用用戶進行定製化的系統設計。
  • 人工智慧開啟視覺處理新篇章:如何更好的理解這個世界
    人工智慧的第三次浪潮正席捲全球,而在這次計算機視覺功不可沒。視覺處理的終極目標在於使得計算機能像人一樣觀察感知世界,核心任務就是對圖像進行理解,場景分類、目標識別/圖像分類、目標定位、目標檢測、語義分割、三維重建、目標跟蹤都是其研究內容。
  • 商湯科技AR特效引領短視頻和直播新潮流
    >12月7日——專注於計算機視覺和深度學習原創技術的AI領域創新企業商湯科技今日開展了一場主題為「當AR遇上網紅——AI推動娛樂新玩法」的媒體活動,展示了時下最領先的短視頻應用和直播平臺背後的黑科技——商湯科技SenseAR增強現實感特效引擎。
  • 機器之心「AI00」十一月最新榜單:兩家國內公司新上榜
    我們深刻地理解在沒有專業用戶反饋的情況下所做出報告的質量局限性,所以希望用工程界「Agile Development」的理念來對待我們的報告,不斷收集專業反饋來持續提升報告質量。人工智慧是一個永恆命題,我們不僅會把「100 家公司」這個主題持續做下去,還會陸續開展其他主題。這個過程需要人工智慧領域不同的參與者加入進來。
  • 對話商湯科技徐立:AI技術突破非連續性,質變存在偶然性
    這棟造型獨特的建築內部同樣充滿未來感,從進門安檢、打卡到室內購物、支付,都連接上了一體化的視覺識別系統,位於三樓的體驗館,則展示著這家公司如何將AI技術應用到各個行業。大樓屬於人工智慧獨角獸商湯科技,過去六年,這家專注於計算機視覺和深度學習原創技術的公司,獲得了超過40億美元融資,估值預計達到百億美元。
  • 重新定義行業,「第二屆中國人工智慧安防峰會」萬字長文回顧
    《智能城市的視覺中樞》商湯科技智慧城市綜合業務事業群副總裁 張果琲當大部分廠商都在往前端、邊緣走的時候,商湯卻另闢蹊徑,致力於打造智慧城市的視覺中樞。張果琲表示,這是因為商湯認為AI算法需要場景化,而場景化的過程中需要有一個中樞來進行賦能。只有具備這樣一個中樞,智慧城市才能持續發展穩步落地。
  • 人工智慧領域的獨角獸公司地平線和商湯科技有什麼不同?
    地平線由百度前IDL創辦人餘凱創建,於 2015 年 7 月成立,雖是一個初創企業,卻有一個優秀的人工智慧團隊,具有世界領先的深度學習和決策推理算法開發能力,將算法集成在高性能、低功耗、低成本的嵌入式人工智慧處理器及軟硬體平臺上。地平線是少有的既能做晶片又能做算法的人工智慧公司。
  • 【正定數博會】史軍:機器視覺技術將重新定義智能車輛和交通
    記者 趙曉慧 攝  長城網訊(記者 趙曉慧 煙成群)在日常生活中,我們常常會遇到這樣的情況:開車犯困不自知、東西落在了車裡……隨著機器視覺技術的發展,這樣的情況將不復存在。  10月10日,「數字經濟『獨角獸引領創新發展』」主題活動在石家莊國際會展中心舉行,商湯科技亞太事業群總裁史軍與到場觀眾分享了機器視覺技術在智能交通和智能駕駛上的應用。  「談到智能交通、智能車輛,大家首先想到的可能就是自動駕駛,自動駕駛其實還處於探索階段,它的商業化可能出現在5—10年之後。
  • 騰訊馬化騰、商湯科技湯曉鷗等六位大佬深度解讀人工智慧的過去...
    Kobilka 教授;騰訊董事會主席兼執行長馬化騰先生;美國國家科學院院士、中國科學院外籍院士、史丹福大學、清華大學教授張首晟教授;北京大學校務委員會副主任、理學部主任、生命科學學院講席教授饒毅教授;中國科學院深圳先進技術研究院副院長、香港中文大學教授、商湯科技聯合創始人湯曉鷗教授 人工智慧變的這麼熱,有四方面的原因 想要在某一領域取得重大突破,是一件容易的事情嗎?
  • 人臉識別技術獨角獸商湯科技最新估值113億美金,憑什麼?
    在全球人工智慧技術中,中國絕對是處在領先地位,而中國最大的人工智慧科技公司就在深圳,這家企業叫商湯科技。商湯科技與依圖科技,雲從科技,曠視科技一起被稱為「AI四小龍」,商湯科技成立於2014年,是全球領先的人工智慧(AI)企業。
  • 2019機器之心人工智慧年度獎項公布:關注創業先鋒,聚焦產品案例
    商湯科技2019 年,商湯科技加速商業落地進程,業務賦能智慧型手機、網際網路娛樂、汽車、智慧城市、以及教育、醫療、零售、廣告、地產等多個行業。2019 年 9 月,北京大興國際機場正式投運,商湯 AI 技術助力服務全球旅客。
  • 全息投影驚豔WAIC背後,商湯科技眼中的AI創新策源力是什麼?
    商湯開源框架OpenMMLab升級為「人工智慧算法開放體系」,已覆蓋超過100+算法和超過600個預訓練模型,迄今在GitHub收穫16895個星標,居國內開源框架之首。剛剛過去的世界人工智慧大會(WAIC)雖然以雲端峰會的形式舉行,嘉賓陣容卻沒有絲毫減弱。