AR 走向普及的關鍵,視覺 SLAM 的挑戰與前景

2021-01-17 品玩

天空上的無人機,地上的無人⻋,AR/VR的頭盔。這些看似不相關的事物,都用到了同一種技術—SLAM。

SLAM 全稱是 Simultaneous Localization and Mapping(同時定位與地圖構建),是機器人和計算機視覺領域的關鍵技術,可以在未知環境中確定自身方位並同時構建環境三維地圖,有著非常廣泛的應用場景,比如說增強現實、虛擬實境、機器人、自動駕駛等。

SLAM 包括雷射 SLAM、視覺 SLAM等。早在 2005 年的時候,雷射 SLAM 就已經被研究得比較透徹,框架也已基本定型。

隨著計算機視覺的迅速發展,視覺 SLAM 因為無需預先布置場景、適用範圍廣和硬體成本低廉等優點受到廣泛關注。顧名思義,視覺 SLAM 以視覺攝像頭為主,結合其他傳感器,比如手機上比較廉價的 IMU(慣性測量單元)、GPS 或深度攝像頭。

10 月 25 日,2019 TIC PRO 科技創新大會在杭州召開,浙江大學教授、浙大-商湯三維視覺聯合實驗室副主任章國鋒帶來演講《視覺SLAM在AR領域的創新突破》,詳解視覺 SLAM 面臨的挑戰和解決方案。

(章國鋒演講視頻)

視覺 SLAM 的挑戰與解決方案

「經過幾十年的發展,視覺 SLAM 在理論上已經比較成熟,但是在實際產品應用中,往往會面臨兩方面的挑戰。」章國鋒說。

一是關於精度和穩定性。實際場景中,難免會存在動態變化,而且很多區域沒有足夠的紋理,或有相似的重複紋理。這些都會導致匹配比較困難,從而導致優化計算不穩定。

二是實時性,在一些非常大尺度的場景下,甚至是城市級的場景下,SLAM的計算複雜度會非常高。要在一個低功耗的行動裝置上做到實時計算,這個難度非常大的。

「為了解決這兩方面的挑戰,我們近幾年做了不少的研究工作。總結起來主要三方面:提升穩定性,提高計算效率以及通過雲-邊-端結合的方式來實現大規模場景的高精度定位與重建。」章國鋒說。

提升穩定性的主要思路是如何讓目標函數優化變得穩定。SLAM 計算其實就是一個目標函數的優化問題,因此優化方程的正確性和充分性就顯得非常重要。

章國鋒解釋道:「我們儘可能去將錯誤的匹配剔除掉,然後引入額外的約束。比如,為相鄰幀之間增加運動的約束,引入場景的結構先驗,比如平面結構,另外可以採用多傳感器信息融合的方式增加約束提高求解的穩定性。」

要提高計算效率,一方面是採用分治求解,提高大場景的求解效率。另一方面通過增量式計算,充分利用上一次優化計算的結果,減少冗餘計算,從而大幅提高計算效率。

「基於這些研究成果,我們和商湯科技聯合研發了SenseSLAM。」章國鋒說,「目前可以支持單目、雙目、RGB-D和IMU等多種傳感器組合,支持6DoF實時位姿恢復,精度與ARCore相當。」

為了實現大規模場景的高精度定位與重建,章國鋒團隊提出了雲-邊-端結合的方式。

這種實現方式將預先重建好的高精度地圖存儲在雲端。需要用的時候,通過雲和邊強大的計算能力,結合預先存儲的高精度地圖數據,將雲或邊優化的結果和三維地圖信息反饋到移動端。

移動端接收到的信息,可以耦合到SLAM的優化裡面去,從而實現低功耗設備在大尺度甚至城市級的這樣場景下的高精定位,支撐起室內外定位導航和多人共享AR這樣一些應用。

高精度地圖是這種方法的基礎。在採集高精度三維地圖上,章國鋒團隊原來是用手機去拍,後來改用全景相機。

在接受 PingWest 品玩採訪時,章國鋒說:「手機拍攝效率不是很高,穩定性也不是非常好。我們後來改用全景相機去拍,效率非常高,也非常穩定,基本上只要拿著走一圈就行了。」

視覺 SLAM 應用於室內 AR 導航

傳統的定位導航方案是GPS,而且只適合於室外,精度通常只有10米級別。

室內一般較常採用的方案有WiFi、藍牙,通常定位精度也基本上只能到米級, 而且要預先去布置設備,工程量比較大、成本比較高。

相比而言,基於視覺的方案定位,精度可以達到分米甚至釐米級別,而且不需要額外布置設備,成本相對比較低。

章國鋒說,「當然,視覺定位的挑戰還是比較大的,因為室內容易缺乏視覺特徵,環境改變要及時更新,而且計算量相對也比較大。」

基於視覺的定位與AR導航,主要分為三大模塊,分別是稀疏地圖重建、稠密地圖重建和視覺定位與跟蹤。

稀疏地圖重建,首先從拍攝圖象序列或者視頻數據中抽取視覺特徵,並恢復三維結構。

「我們可以進一步重建出稠密三維幾何模型。這個模型可以用來處理碰撞檢測和遮擋等。」章國鋒說。

基於重建的高精度三維地圖,用戶可以基於手機拍攝一張或若干張照片,甚至視頻序列,跟地圖進行比對查詢,得到若干二維和三維點的對應,從而求解出對應的位姿, 再結合SLAM技術可以實現連續跟蹤和導航。

稀疏地圖構建,面臨著不少挑戰,比如場景可能存在大量的弱紋理區域,存在視覺歧義以及通過雲-邊-端結合的方式來實現大規模場景的高精度定位與重建。

「我們可以通過拍攝全景視頻,將SLAM與 SfM(Structure from motion)結合,以及採用分而治之的求解策略,來提升求解效率和穩定性。」章國鋒解釋道。

稠密三維重建也面臨類似的問題,解決辦法是通過精準的稠密深度圖估計和融合,特別是結合多層次特徵的精準匹配,來提高重建的穩定性。對於大型場景,可通過外存處理技術,來實現可拓展的大規模稠密網格重建。

基於視覺的定位與跟蹤,主要挑戰是如何在各種環境下保持高定位的成功率,特別是視點變化、光照、外觀變化帶來的影響,以及⻓距離、⻓時間的穩定跟蹤。

「我們發現基於學習的視覺特徵可以提高定位的成功率,通過將基於高精地圖的重定位和SLAM做緊耦合,可以實現⻓距離的穩定跟蹤。」章國鋒說。

鬆耦合模式是直接使用雲端重定位的位姿,並沒有加入到SLAM的優化裡。而緊耦合是在定位初始化完成之後,頻繁地向雲端發送請求,把雲端相應的地圖信息數據跟移動端拍攝圖像提取的特徵點進行匹配,並把獲得的三維先驗約束加入到SLAM目標函數優化裡面去,從而能夠減少誤差。鬆耦合的誤差累積很明顯,緊耦合的精度明顯更高一些。

除了誤差累積的問題之外,鬆耦合也可以頻繁調用重定位,但它不是放在目標函數裡面優化,如果頻繁調用,求解的位姿就會頻繁抖動。但緊耦合因為是通過把高精度地圖的三維先驗約束加入到SLAM的目標函數裡面優化,所以它在抑制誤差累積的同時,也會保證恢復的位姿依舊很平滑。

AR 的未來

「我覺得AR未來會跟AI技術深度融合,藉助AI帶來的智能化,可以進一步提升AR應用的想像空間,融入到人們生活和工作的方方面面。 」章國鋒說。

AR場景的規模會越來越大,未來甚至會出現整個地球級的虛實融合。

一方面,需要對大規模的物理世界進行高效的三維數位化,然後提取出不同粒度的語義信息。如果物理世界發生了改變,需要對它重新進行數位化和及時的更新。

除了物理世界的三維數位化的重建之外,還需要對人的行為進行三維數位化,包括運動的行為、消費的行為,社交行為等等。

「5G很快就要到來,甚至要普及了。基於空間計算的AR應用,我相信也很快會流行起來。」在演講最後,章國鋒說道,「因為5G有著高帶寬和低時延,得益於快速高效的數位化重建和雲端高精度地圖與移動終端SLAM的緊耦合,我們未來可以做到⻓時間甚至城市級場景的精準定位。」

相關焦點

  • 雷射SLAM與視覺SLAM的現狀與趨勢
    SLAM技術對於機器人或其他智能體的行動和交互能力至為關鍵,因為它代表了這種能力的基礎:知道自己在哪裡,知道周圍環境如何,進而知道下一步該如何自主行動。它在自動駕駛、服務型機器人、無人機、AR/VR等領域有著廣泛的應用,可以說凡是擁有一定行動能力的智能體都擁有某種形式的SLAM系統。 一般來講,SLAM系統通常都包含多種傳感器和多種功能模塊。
  • 人工智慧機器視覺的挑戰和好處
    打開APP 人工智慧機器視覺的挑戰和好處 51cto 發表於 2020-12-24 13:57:51 引起關注的部分趨勢是,在製造過程的兩個關鍵領域中,自動進行故障檢測的能力至關重要–將其作為預測性維護計劃的一部分和作為質量保證工具的一部分來檢測工廠機械中的故障,以確保製造輸出符合規格。   機器視覺   一個關鍵的技術共性是對可靠且高度可配置的機器視覺的需求,尤其是在QA過程中,在該過程中,發現表面缺陷是該過程的關鍵要素。
  • 新手入門SLAM必備資料
    >Autonome Intelligente SystemeCS 287: Advanced Robotics, Fall 2012 University of California at BerkeleyDept of Electrical Engineering & Computer Sciences Introduction to Mobile Robotics - SS 2012 slam
  • 無人機視覺slam給你答案
    大多數視覺SLAM系統的工作方式是通過連續的相機幀,跟蹤設置關鍵點,以三角算法定位其3D位置,同時使用此信息來逼近推測相機自己的姿態。簡單來說,這些系統的目標是繪製與自身位置相關的環境地圖。這個地圖可以用於機器人、無人機等系統在該環境中導航作用。與其他形式的SLAM技術不同,只需一個3D視覺攝像頭,就可以做到這一點。
  • 俞建拖:「十四五」時期ESG主流化的前景與挑戰
    在談「十四五」時期ESG主流化前景之前,我們需要釐清這一點,即到底主流化什麼,才好對主流化的前景進行預測,並分析面臨的困難和挑戰。二、ESG是在什麼樣場景下的主流化?ESG主流化並非從「十四五」時期開始,也不是要在這個期限結束。最近幾年來各界對ESG越來越多的關注和討論,是ESG主流化的表現,這是一個可能要持續相當長的過程。
  • 碰碰狐:用 AR 特效和 AR 廣告引爆熱度
    用改版的BabyShark 給家人和孩子普及新冠肺炎知識——由 Spark AR 團隊提供「在社交媒體發起一個挑戰活動後,我們要解決的一大痛點就是如何吸引用戶廣泛參與,而不需要他們自己編輯視頻。我們藉助 Spark AR 效果製作的 AR 廣告很好地說明了我們是如何解決這一痛點的。」
  • No slam dunk?
    by the fire department is no slam dunk.Certainly, no slam dunk.According to Woodward, Tenet reassured the president that 「it’s a slam dunk case」 that Saddam had weapons of mass destruction.
  • 機器人的雙眸:視覺SLAM是如何實現的?
    其中又有若干歷史分枝和爭論,要把握它的走向就很費工夫。    3. 難以實現。SLAM是一個完整的系統,由許多個分支模塊組成。現在經典的方案是「圖像前端,優化後端,閉環檢測」的三部曲,很多文獻看完了自己實現不出來。    4. 自己動手編程需要學習大量的先決知識。首先你要會C和C++,網上很多代碼還用了11標準的C++。第二要會用Linux。
  • 視覺SLAM技術
    傳感器分為雷射和視覺兩大類,視覺下面又分三小方向。下面就帶你認識這個龐大家族中每個成員的特性。 1. 傳感器之雷射雷達 雷射雷達是最古老,研究也最多的SLAM傳感器。它們提供機器人本體與周圍環境障礙物間的距離信息。
  • 重用地圖的單目視覺慣導SLAM系統
    上圖表示出了ORB-SLAM中的BA和ORB-SLAM-VI中BA的區別,這裡的優化函數是IMU的誤差和重投影誤差的和,和純視覺的方法相比每個關鍵幀多了九個狀態量(速度和偏置)需要優化。所以要選擇一個合適的窗口的大小來實時的優化。局部建圖線程還負責關鍵幀的管理。原始的ORB-SLAM策略中會丟棄冗餘的關鍵幀,這樣就不會在已經建圖很完善的地方增加很多的關鍵幀。
  • SLAM算法解析:抓住視覺SLAM難點,了解技術發展大趨勢
    按照傳感器的不同,可以分為基於雷射雷達的 2D/3D SLAM、基於深度相機的 RGBD SLAM、基於視覺傳感器的 visual SLAM(以下簡稱 vSLAM)、基於視覺傳感器和慣性單元的 visual inertial odometry(以下簡稱 VIO)。
  • 2021汽車半導體市場:前景、需求與挑戰
    半導體行業和產品是開發更智能硬體的關鍵,各大品牌都在使用更智能的軟體,來推動產品和行業的增長及升級。如今的混動和純電車,即便是在低端市場,產品也大多配備了自主功能組件和先進的信息娛樂系統、人機互動界面等。與之相對應的,這些車用半導體都已經成為了電動車的標配了,市場不可能不大。
  • 一種低成本、高精度的雷射雷達輔助視覺SLAM系統
    即便後來採用融合像機和IMU的組合方式,卻因為消費級IMU只能在相對較低的精度下工作,並且IMU本身容易受到偏置、噪聲和漂移等的影響,但是高端IMU的成本非常高,這些都不利於IMU進行普及。 另一方面,雷射雷達提供了直接的空間測量。雷射雷達SLAM框架已經開發出來且相對成熟,但是多線雷射雷達通常成本太高,無法用於實際應用。
  • 李慎明:讓太極文化和太極拳在全國進一步普及並儘快走向世界
    讓太極拳進一步在中國普及並走向世界,必須把振興太極拳列入中華民族偉大復興的國家戰略和「十四五」規劃,為太極文化和太極拳的發展定好位;用太極精神推動太極拳事業及太極拳文化產業的發展,樹立大太極拳觀念;建立國家級太極拳段位分級評審機制,制定科學化、標準化的太極拳健身普及版本;積極發展技擊太極拳,爭取將技擊太極拳列入奧運會比賽項目;把太極文化和太極拳納入國家的相關教育體系,開辦太極文化和太極拳大學以及各類專業學校
  • 雷射SLAM|SuMa:基於Surfel地圖的室外大場景SLAM
    這種地圖表示方式出現之前,三維重建都是存儲關鍵幀,然後以關鍵幀作為頂點建立概率圖然後做圖優化,這種屬於優化軌跡,而Surfel地圖引入之後,優化的元素變成了地圖中實際的點(當然不是單純的三維點,而是以一種特定的組織形式),以地圖一致性作為最終的優化指標,這樣不僅提高了地圖精度,而且不會像優化軌跡那樣因為在同一個地方反覆走,雖然地圖其實並沒有增加,但是優化的概率圖卻越來越大。
  • 高德地圖ar功能在哪裡設置打開 ar實景導航怎麼打開使用教程
    高德地圖ar功能在哪裡設置打開 ar實景導航怎麼打開使用教程  高德方面表示,AR 導航藉助了智能的圖像識別技術以及專業的交通大數據和車道級導航引擎,可直接在拍攝的現實道路畫面中,實時呈現直觀的 3D 導航指引,大幅降低駕駛人對傳統 2D 電子地圖的讀圖成本,輔助用戶在轉向、岔路口、變換車道等多種關鍵場景下,更快更準確地做動作決策。
  • 富煌君達向世界發出高速視覺科技的中國聲音
    據前瞻產業研究院發布的《2018-2023年中國機器視覺產業發展前景與投資預測分析》表明,高速相機已成為視覺產業鏈的重要一筆,國際高速視覺市場早已發展成熟,行業進入成熟期。2020年11月20日,由合肥富煌君達高科信息技術有限公司主辦,千眼狼首屆高速視覺與測量技術論壇在帶著助推中國高速視覺產業的使命,在北京飛天大酒店舉行。國內高速視覺領域各代表性企業蒞臨現場,共同探討高速視覺與測量技術的現狀和將來。在本次論壇中,富煌君達銷售總監徐勇作為主發言人出席論壇並做開幕致辭。論壇聚焦主題為新經濟形勢下的高速視覺業轉型升級。
  • 無人機如何實現「視覺精準降落」?只需一張簡單標誌圖
    上一周,我們阿木實驗室進行了無人機視覺引導降落的測試,是一個很好的結合圖像處理與運動控制的任務,推薦初學飛控的同學們實踐下這個demo,(可加客服微信獲取:jiayue199506)相信會收穫不少。一、視覺降落原理概述實現精準平穩地降落,首先關鍵在於獲取降落平臺與飛行器準確的相對位姿,通過圖像在測量降落平臺的位置和姿態的時候就需要一種簡單實用,魯棒性好的方法以減小運算量,增加降落精度。一種常用的方法就是採用標誌碼,我們此次測試用的是AR marker二維碼。
  • 足球為什麼不像籃球和排球一樣普及鷹眼挑戰
    比賽的第37分鐘,中國女足前鋒王珊珊反越位成功,接到對友的直塞球正準備單刀,卻被邊裁舉旗判定示意越位在先,賽後不少關注女足的人紛紛表示疑問,內容一般都是現在技術這麼發達、科技發展這麼快,而挑戰和鷹眼技術為什麼不能像籃球和排球一樣用在足球場上普及運用。
  • 視覺SLAM詳細學習路線全規劃,看這篇就夠了!
    點擊播放 GIF 0.0M傳統的視覺算法主要是對針對二維圖像的處理,藉助深度學習在分類識別方面取得了超越人眼精度的巨大成就,就像人眼是通過雙眼立體視覺來感知三維世界一樣三維視覺傳感器也逐漸走入普通人的生活,在智慧型手機、智能眼鏡等設備上應用越來越多,以手機為例,蘋果、華為、小米、OPPO、VIVO等手機大廠都在積極推動結構光/TOF相機在手機上的普及。