深度乾貨:詳解基於視覺+慣性傳感器的空間定位方法 | 雷鋒網公開課

2021-01-08 雷鋒網

在今年的Oculus Connect大會上,扎克伯格公布了一款正在開發的VR一體機產品——Santa Cruz。細看報導你會發現,這款產品除了將計算單元都集成到頭盔中,還在前面增加了4顆攝像頭。這些攝像頭的作用,其實是用來實現空間定位的,在Oculus Rift CV1上,空間定位系統需要通過一套外部傳感器來實現,這顯然不適合移動方案。

許多人都說VR一體機是未來,而移動VR要真正移動起來,就需要擺脫外部空間定位基站的束縛。那麼如何用另一種方案來擺脫有線VR通常使用的Outside-in空間定位方案呢?那就是Inside-out空間定位技術,此類方案大都基於計算機視覺技術,包括微軟、Google和Facebook在內的科技巨頭都在進行相關研究。

所謂的Inside-out追蹤到底是如何做的呢?它使用了哪些技術,又有什麼難點,本期公開課將為您解答這些疑問。

嘉賓介紹

馬賡宇,清華大學計算機系本科,碩士,以及博士。馬博士於2015年9月加入uSens凌感科技,現任凌感科技技術副總裁和中國研發中心主任。

在清華,馬博士在人工智慧與媒體集成實驗室主攻人機互動和人工智慧。馬博士曾任三星中國研究院(SAIT China)首席研究員與研發主任,是三維顯示與人機互動技術以及虛擬實境技術的專家,為Timothy Sauer所著教科書《Numerical Analysis》的譯者。

以下內容整理自馬賡宇博士本次公開課演講,您將看到以下內容:

大家好,本次講座的主題是基於視覺+慣性傳感器的空間定位方法,前半部分是基於視覺的定位方法,以前和學校及研究機構做得比較多。後半部分介紹慣性傳感器在定位中的應用。慣性傳感器是最近幾年才興起的,主要是因為手機傳感器(這方面主要是iPhone)的發展,傳感器的精度也在逐年提高。

手機裡面的陀螺儀現在基本可以達到0.01度的誤差,加速度計雖然誤差稍微大一點,如果用來估計針尖運動也可以起到很大的輔助作用。

空間定位方法簡介

這裡列舉了一些空間技術應用場景。據我了解空間定位是從軍事上開始應用的,主要是飛彈的定位,可以在沒有GPS導航的情況下,根據自身的IMU和加速度計達到在幾千公裡外只差幾百米的誤差。然後像室外的自動駕駛、無人機,室內的機器人、吸塵器等都是需要SLAM技術的。

SLAM(simultaneous localization and mapping)就是同時進行場景的建模和相機自身位置的定位,它的用途就是估計一些設備在場景中的位置和相對運動軌跡。

在VR的場景裡呢,因為需要模擬出頭部運動後一些虛擬物體在場景中的位置,所以要實時得到頭相對於世界的位置。圖示中的頭部位置有六個參數,三個表示旋轉三個表示位置一共六個自由度。旁邊有手和控制器,意思是在VR的應用裡除了要知道這個設備相對於世界的位置還要知道手相對於設備、以及控制器相對於頭盔或世界的位置。

然後我們在實驗過程中發現,VR環境和其他一些應用環境相比,對SLAM的性能要求有些不同。在VR環境下對用戶影響比較大的幾個指標是:

延時,也就是說頭運動之後一般二十毫秒之內就能把運動反饋到渲染部分;

相對位置精度,很小的運動都能識別;

穩定性,如果頭不動,識別出來的結果不能左右抖動。

相對不太重要的指標,一是loop closing,比如說我在院子裡走了一圈,回到起始位置時它識別的結果是否和剛才的起始位置重合。戴上VR頭盔以後看不到世界場景,有可能一米的誤差也感覺不到。二是絕對誤差,戴上頭盔以後頭部轉了100度,識別出來90度,實際用戶也體驗不到差別;那麼第三個絕對位置也就好理解了。

下面介紹幾種方向傳感器,也就是陀螺儀的原理。

機械陀螺儀

可能我們最了解的是以前上物理課見過的機械陀螺儀。機械陀螺儀裡面有一個轉子,由於能量守恆的原因,整個設備高速旋轉,而轉子的方向是不變的,通過這種原理確定這個設備的方向。這種設備可能早期在航海裡應用,但現在應該基本不用了。

雷射陀螺儀

中間是現代高精度的雷射陀螺儀,在軍事上和一些高精度應用上使用。圖中中間是雷射發射模塊,往兩個方向發射雷射,左上角的傳感器會計算兩束光路距離的差。當設備靜止時,兩邊的光線長度一樣;當設備旋轉時,兩邊的光路長度會不一樣,通過距離差來計算旋轉速度。雷射陀螺儀是很難小型化的。

MEMs陀螺儀

手機常用的是基於微機械結構的MEMs陀螺儀,它可以做到很小。兩個黃色區域中間通過一個軸固定,利用科裡奧利力——旋轉物體在有徑向運動時所受到的切向力,來計算出角速度。

圖中是一個加速度計的示意圖。基於彈簧的原理,一個重物兩邊有彈簧固定,如果有加速度,重物在彈簧上的位置就會改變,位置的改變用電信號輸出就是它的加速度。對比之下,陀螺儀識別出來的是角速度的值,因為物體在旋轉時會產生離心力,陀螺儀就是把離心力的大小輸出出來了。本質上陀螺儀和加速度計識別的都是受力,等價於加速度。

這類磁場傳感器是基於磁場的。比如說手機裡的數字羅盤就是可以感應出地球磁場的方向。另外一種Razer Hydra遙控器,中間的球會產生一個強磁場,手柄上有一個傳感器可以識別出磁場的強度和方向,以此來進行手柄位置的定位。

總結以上三種常見的傳感器的優缺點,陀螺儀精度很高,手機上的採樣率可達到100hz,一些先進的頭盔可達到1khz的採樣率。加速度計的精度比較低,從晶片的參數表來看,誤差達到0.1米每秒方的加速度。如果用加速度進行積分,經過1秒鐘的累計誤差會到0.05m,誤差較大。

Outside-in定位

介紹一些基於Outside-in定位的一些VR頭盔設備,比如流行的Oculus、HTC VIVE、PSVR。主要講講HTC VIVE Lighthouse的工作原理。因為我們覺得他是性能最好的定位算法,而且設計很有意思,如果把它理解成一個圖像的話,可以達到很高的解析度。

發射器有兩排燈,起始時會全部照亮以示初始時間,分別有豎直和水平的兩束光線旋轉掃描,頭盔上的記錄器會記錄光線掃到的時刻。如果把時刻轉換成圖像坐標,那麼簡單理解就是每次掃描可以得到一張圖像,圖像記錄的是每個紅外感應點在圖像上的XY坐標。這樣有個好處就是如果時間很精確,圖像的解析度會很高。

現在的數位相機解析度是有限制的,一般做SLAM的達到1080p就很高了。另外,每個LED的ID 都是已知的,不需要在圖像上進行匹配或跟蹤,就可以知道自己的圖像坐標。

Inside-out定位

微軟的Hololens基於四個魚眼相機來進行slam定位,不需要在場景裡設置傳感器。高通發布VR820一體機頭盔的參考設計,前面有兩個攝像頭,使用高通晶片的DSP來進行處理,也能達到inside-out的效果。我們公司出的Power Fingo也是通過兩個紅外攝像頭進行跟蹤,裡面有自帶的高通820來進行計算,也是Inside-Out的SLAM硬體。

上圖是三種跟蹤算法的比較

上圖是比較誤差對Outside-In 和Outside-Out的影響。Outside-In的方法是假設傳感器是在外面的,認為外面有個攝像頭,頭盔上的Marker點在攝像頭的成像算出二維或三維的位置,設備角度通過IMU來得到。如果角度有誤差,位置是不會影響的。因為這些點的位置不變,如果角度變化最多識別出紅框的結果,至少位置上是相對穩定變化不大的。

Inside-Out的方法是頭盔上有攝像頭來識別外部的點,假設外部點離設備一米遠,如果識別出的角度差了1度,位置可能就會差幾釐米。如果大家仔細體驗Hololens就會發現,在湊近虛擬物體時,距離頭盔一分米內的物體就會慢慢變黑不顯示。因為它識別出的頭盔位置的誤差會有一些抖動,比如一米遠的物體有稍微抖動,成像時顯示出來可能就很小,如果物體就在眼前,顯示出的抖動會很大,所以Hololens採用取折中方法,近處的物體不顯示,以此減小SLAM誤差的影響。這也說明Inside-out的方法對精度的要求會更高。

視覺和IMU融合的SLAM算法

下面介紹視覺和IMU融合的SLAM算法,包括有什麼改進可以提高SLAM精度。先來看一些Demo。

第一個Demo是融合IMU數據和基於單個普通相機的PTAM算法。在筆記本的屏幕上可以看到桌面上有四個眼睛是虛擬的物體,整個場景是以AR的方式來顯示場景,眼睛的位置和真實場景綁定。如果SLAM的效果好,那麼當相機運動的時候,這4個眼睛的位置依然綁定在真實場景的物體上不會變。 在這個Demo中大家可以看到,頭盔的運動(旋轉)速度很快,這是在模擬真實的VR環境,人戴著頭盔時一秒鐘可以運動180度,有很快角速度。原始的PTAM算法在這種情況下會跟蹤失敗。 而這個Demo毫無問題,因為融合了IMU才能達到這麼穩定的跟蹤。

第二個Demo是在手機上運行的基於Mark點的SLAM算法,桌面上有4個紅外反射點。這個初音跳舞的Demo,可以通過移動手機(通過頭盔也可以)在不同的位置來看,這個就是和Gear VR最大的區別, Gear VR只能識別旋轉,而前面運動場景是不會變的。

第三個Demo是Marker點SLAM算法的測試程序,手機在Mark前晃動,這個程序顯示的紅線是相機的運動軌跡,我們也模擬VR環境下頭的快速運動,即使以很快的速度晃手機,也可以跟蹤到很好的軌跡,不會丟失。

這些算法與網上一些SLAM定位算法或者基於手機的AR算法的最大區別就是,在快速運動或快速旋轉時也都可以很好的跟蹤到。在VR環境下必須保證SLAM永遠是對的,必須保證即使多快的運動都不能丟失。否則如果丟失了再找回來,用戶看到的就是場景跳了一下又回來了,體驗是很差的。 

基於視覺的3D立體幾何的基本原理

這一頁介紹一下基於視覺的3D立體幾何的基本原理,需要了解的兩個基礎知識,一個是3D坐標變換,一個是針孔相機模型。左邊是成像的基本原理,相機兩個關鍵幀,一幀在c1位置,一幀在c2位置,同時觀測到一個三維空間點,就是前面藍色的點,這個點和相機光心的連線,這條連線和成像平面的交點,就是這個點在圖像上的坐標,這就是基本的針孔相機模型。

因為這個3D點的位置在空間中是不變的,所以這兩個相機的方向和位置以及3D點的位置就滿足一個方程,簡單說就是這兩條射線要相交。

右邊是對應的一個投影方程,XYZ就是3D點的空間坐標,T是相機的光心,XYZ減T再乘以R就是3D點在圖像坐標系下的坐標。左邊的矩陣一般叫K矩陣,F是相機的焦距,cx、cy是相機的光心,K乘以相機坐標系下的坐標就等價於得到了這個點的圖像坐標。

這一頁是方程的具體應用:

第一個應用是相機定位,就是在這個方程裡已知3D點位置和投影點的圖像坐標,求相機的位置和方向R,T;

第二個應用是已知好幾個R和T,就是已知好幾幀圖像,以及這個圖像3D點的投影位置,要求3D點的世界坐標,實際上就是剛剛那一頁左圖裡邊,已經兩條射線的方向,要求它們的交點;

第三個應用是最複雜的,SLAM中Localization是相機定位,mapping求解3D坐標,這個公式裡邊如果相機位置和3D坐標都不知道的話,就需要多幀圖像,只知道u、v,x、y、z都不知道的話,需要很多個這樣的方程進行方程組求解,也是可以解出來這些未知數的。

還有一些進階的技術知識,簡單列舉一下。第一是四元素,之所以用四元素表示旋轉,是因為如果用歐拉角表示旋轉,無法保證表達的連續性。還要了解各種非線性方程組求解的算法。雖然現在有些工具包是解SLAM問題的,但基本上都沒有融合IMU,或者說融合方法千差萬別。在VR需求下要求低延遲、相對位置準,對絕對值要求不高,方程都是需要改變的,對於改變的方程要求解的話就需要了解各種非線性議程組的求解方法,下面列了這些,常用的是最後這種。

Visual SLAM 算法

介紹一下Visual SLAM 算法,一些論文裡邊只用了視覺的方法(單目相機)進行SLAM,包含Localization和Mapping,這兩塊已經介紹了。Visual+IMU的融合,主要改進是在Localization的模塊,Mapping是建立三維點坐標的過程,這是用不到IMU的,只是在Localization上要精確估計出相機的位置,才需要IMU的融合。

純Visual SLAM的方法,主要是在場景中提取特徵點,進行特徵點匹配,但這種方法在室內場景,尤其是特徵點比較少,主要特徵都是線和邊緣的場景,很容易跟蹤失敗。

最近幾年有一些Direct Method,不是通過特徵點匹配而是直接通過圖像像素顏色匹配來優化相機位置,代表的一些論文算法包括LSD-SLAM和DSO-SLAM,下面有兩個YouTube視頻供參考。

他們的效果是基於純視覺算法中最好的了,但是像剛剛那邊快速頭盔旋轉,他們的Demo如果出現這種情況肯定會丟失。

這頁是DSO算法的簡單介紹,在圖像management上要保留7個關鍵幀,新來的每幀圖像會和最近的幀的特徵進行比較,優化新圖像的姿態(Localization)。到了一定範圍之後就要添加新的關鍵幀,把所有關鍵幀一起優化(Mapping),來更新3D點的位置。右邊是運行示意圖,上邊那些黑色的點是歷史建出來的3D點的點雲。

紅色的一條線,是相機運動軌跡,藍色的小框是選擇的那些關鍵幀,下面這些圖,上面右下角是最近的關鍵,後面是歷史上的一些關鍵。在現在的場景,如何最遠的那個關鍵關鍵幀中那些點太少,就會去掉,生成一個新的關鍵幀。

Vision+IMU融合

Vision+IMU融合的產品包括HoloLens、Tango和高通的一體機。它的好處包括:

通過IMU可以減小圖像匹配的搜索範圍,在VR環境下頭快速旋轉時可以達到每秒180度的速度,如果沒有IMU的話,相鄰圖像裡邊搜索的範圍可能會很大,比如當前這個點在圖像的最左邊,下一幀可能就移動到圖像最右邊了;

可以在很少或沒有特徵點時繼續跟蹤;Tango一個比較好的性能就是,在沒有特徵點,比如掃過一面白牆時,也能夠基本正確地跟蹤一兩秒的時間。

可以在圖像幀間預測位置,因為攝像頭的採集速率一般比較低,可能每秒30、60幀,最快有300幀(Intel ,而IMU可以達到每秒1000幀或者更高,如果把IMU加到圖像幀間預測,那麼SLAM就可以以每秒1000幀的速率輸出位置,而不是只在有圖像的時間輸出位置。高通的VR820就可以以800Hz的速度輸出頭部運動的結果。

手機裡邊有很多傳感器,陀螺儀可以輸出採樣時的角速度,加速度計可以輸出這個時刻的加速度。還有磁場傳感器,GPS。有些手機裡自帶的融合算法,將磁場、陀螺儀和加速度計整合到一起輸出一個方向,它輸出的方向看上去誤差很小。

IMU的速度很快,1000Hz,但是相機的速度很慢,需要有一個解決方法。

從Gear VR開始提出ATW這個概念後,現在大部分頭盔都實現了這個功能。簡單介紹一下,用戶看到圖像的時間,是經過了好幾個處理,從圖像採集加上圖像處理加上渲染引擎渲染的時間,才是用戶最終看到的時間。

所以SLAM需要輸出的,不單是有圖像時刻相機的R和P,還有圖像之後通過IMU積分的,當前最新時刻的R和P,以及在當前時刻往後預測的渲染結束時刻的R和P,最後輸出的預測R和P才是渲染引擎需要知道的相機位置和方向。

SLAM對硬體的要求是很高的,上面列舉了一些。對攝像頭的要求是全局快門,手機裡是捲簾快門,它的圖像掃描每一行曝光是不同的,手機快速運動時圖像會變形,這種處理起來會增加很多難度,雖然很多paper也處理這種問題,但現有的所有SLAM算法並不考慮捲簾快門的影響。

相機需要固定的焦距、光圈,焦距固定可以通過預先的標定來標定相機的焦距和畸變;光圈的固定可以讓相機在運動過程中場景的亮度不會變化,方便特徵點的匹配和跟蹤。

相機需要大的視角,比如魚眼或全景,視角越大跟蹤的效果越穩定。還有相機的快門速度足夠高,這樣在相機高速運動和旋轉時圖像不會產生運動模糊。相機的幀率要足夠高,這樣相對幀的圖像差距比較小,方便跟蹤。

傳感器的要求,外置高性能IMU會比手機自帶的精度要高。加速度計的精度需要過一兩年能發明出更好的加速度計對SLAM性能的改進也會有很大提高。

這頁是列了一些uSens的產品,右上角是雙目的彩色攝像機,Color Fingo,可以進行RGB SLAM,以及AR see through顯示。左下角是Fingo紅外相機,可以識別手識,以及進行基於紅外Marker的SLAM跟蹤。右下角是Power Fingo,集合了兩個RGB和兩個紅外攝像頭,同時內置有820處理器,可以機器內部進行手勢識別和SLAM跟蹤。

我們做的Markerless SLAM相比現有SLAM算法有多種改進,在預測和優化階段都結合了IMU的信息。

Markerless的算法計算量比較大,在手機上跑不到實時快速運動跟蹤效果,所以出於實用的目的,uSens也開發了基於Marker點的SLAM算法。下面兩個圖,左圖是桌面級別的SLAM,需要在桌面放四個Marker反射點。右圖是房間級別的SLAM,每面牆放6、7個,房頂6、7個,大概一個房間需要30個Marker點,這些Marker點的坐標都可以事先通過離線方法計算出來,Marker點的ID通過點之間的位置來確定,這種基於Marker的算法可以直接在手機上實時跑起來,戰資源比較小,在手機上每幀圖像是5ms之下的處理時間。

Q&A環節

Q:Markerless SLAM定位怎麼樣可以做到低延遲、高精度,擼棒性也很好呢?

A:Markerless SLAM是在三個階段都整合了IMU信息,第一個階段是已知當前幀相機的位置,通過IMU信息來預測相機的位置,可以預測到3D的空間點在下一幀圖像的位置,這樣就可以提高特徵點跟蹤的穩定性。

然後是在沒有圖像時候,通過IMU來預測相機的位置,輸出給渲染模塊。

還有是在優化相機位置時,不光考慮圖像特徵點的投影坐標,也考慮幀間和加速度計的信息來進行統一優化,就是那一頁講得最複雜的議程。

Q:為什麼HoloLens的定位可以做得這麼好?

A:HoloLens的SLAM做得很好,它的SLAM過程中是沒有用深度相機的,完全依靠左右兩側的4個魚眼相機,深度相機只在場景建模時候用,它跟我們的思路一樣,分兩個階段,一是把場景裡3D點的位置確定出來,後面的跟蹤就只用特徵點的圖像坐標和IMU來處理。

它的IMU精度還不確定,我們做過實驗,比如在電梯裡戴HoloLens,電梯一啟動一停時,場景整個就飛到上面飛到下面,它首先是相信IMU的數據,其次才是相信圖像的數據。

它裡面有一個專門處理器HPU,專門處理特徵點的識別匹配問題,這樣就可以達到實時的效果了。最後,他們的位置跟蹤誤差其實挺大的,如果你湊近看一個物體可以發現抖動挺大,再近一點就直接不顯示了。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 預告:指紋傳感器原理和假指紋攻防技術|硬創公開課
    然而雷鋒網了解道,市面上所謂內置「活體指紋識別」技術的終端遭假指紋破解的事件也屢見不鮮,這一技術似乎也不可靠。指紋的採集技術和傳感器原理是指紋識別系統最基礎的部分,所以,要認清指紋識別的安全問題必然繞不過這兩部分。那麼活體指紋識別遭破解背後究竟有什麼秘密呢?為此,雷鋒網邀請了邁瑞微電子創始人李揚淵為大家分享《指紋傳感器原理和假指紋攻防技術》。
  • 基於慣性導航、RFID 及圖像識別的 AGV 融合導航系統
    目前AGV 主要有電磁導引、光學導引、雷射導航、慣性導航、視覺導航和全球定位系統導航等方式[1]。多數AGV 採用雷射導航和磁導航方式,雖然這些導航技術已是成熟技術,但其成本高,難以維護和改造,因此,新的導航方式越來越受到人們的關注。其中,慣性導航技術作為一種不依賴外界輔助的獨立導航方式,在適用範圍和布局上具有得天獨厚的優勢。
  • 基於MEMS傳感器的行人航位推算(PDR)解決方案
    行人航位推算(PDR) 就是這樣一種技術,在室內環境中可提供行人航位信息並提高定位可靠性。慣性傳感器、磁力計和壓力傳感器是航位推算應用中必不可少的傳感器組件,用之可大幅提升導航性能,這些器件的功耗必須極低,這樣才能始終保持開啟模式並提供數據用於航位推算應用。實現隨時隨地定位的目標離不開高品質的MEMS傳感器和高性能的行人航位推算算法。
  • 掃地機器人導航技術解析:慣性、雷射、視覺導航孰優孰劣?
    1、慣性導航 慣性導航主要是指掃地機器人利用內置的陀螺儀、加速器等傳感器器件測量設備的角加速度和線加速度信息,然後通過積分獲得機器人的位置信息,其測量的精度由於會受到陀螺儀漂移、標定誤差、敏感度等因素的影響,因此精度較低,而且誤差會隨著使用時間的增加而不斷增加,比較適合在一些面積較小、環境簡單的房間中使用,屬於主動規劃式導航中比較低級的一種
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 農業植保的精準導航——基於RTK技術的地理信息採集 | 雷鋒網公開課
    高精度的地理信息,是精準農業的基礎。本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到極飛地理負責人遊春成,為我們詳細講解什麼是RTK技術,為什麼要在農業植保中使用 RTK 技術以及RTK 技術如何在農田勘測、無人機飛行中運用。以下為嘉賓分享內容實錄。相對視頻文中做了刪減,完整內容可觀看視頻。關注雷鋒網(公眾號:雷鋒網)旗下微信公眾號「新智造」,回復「PPT」可獲取嘉賓完整PPT。
  • 有一種精準來自慣性——起底百度地圖高精定位背後的黑科技
    在GPS不可用,甚至是GPS不可靠的情況下,利用慣性導航來推算駕車定位,從而實現更穩定可靠的導航定位引導。面對遮擋嚴重、GPS都「無能為力」的環境,百度地圖可以依靠準確靠譜的VDR技術,VDR是一套駕車場景下的慣性導航算法。通過「傳感器模式檢測」「GPS定位優化」「歷史軌跡智能學習」三項關鍵技術,可以精確推算車輛速度、動靜狀態等,目前推算偏差能夠控制在10%以下。
  • 塵埃4如何慣性漂移 塵埃4慣性漂移方法詳解
    導 讀 大家知道塵埃4如何慣性漂移嗎?今天小編為大家帶來了塵埃4慣性漂移方法詳解,下面一起來看看吧!
  • +張奕:人工智慧在消費級視頻場景中的應用丨雷鋒網公開課(附PPT)
    本期硬創公開課,雷鋒網邀請到了Video++人工智慧事業部研發Team Leader張奕為大家講解人工智慧在消費級視頻場景中的應用。嘉賓簡介 大家好,我是來自Video++團隊的張奕。三、如何構建基於深度學習的消費級視頻分析系統
  • 作為VR的利器,慣性動捕還存在什麼問題?
    反向運動學方法在一定程度上減輕了正向運動學方法的繁瑣工作,是生成逼真關節運動的最好方法之一。如上文所說,如果己知末端效應器的位置信息,反求其祖先關節(也稱父關節)的旋轉角和位置,這是就是反向運動學。也就是我們通過室內定位技術,獲取末端效應器的位置信息,然後利用IK算法推算出祖先關節的旋轉角和位置,從而知道運動者的運動信息,再利用運動信息實現實時動作跟蹤顯示。
  • 塵埃4慣性漂移方法詳解 塵埃4如何慣性漂移
    今天小編為大家帶來了塵埃4慣性漂移方法詳解,下面一起來看看吧! 方法是,調成輔助全關,過彎踩腳剎降速至可以漂移過彎... 賽車遊戲中漂移是玩家必備的技巧,很家想知道塵埃4怎麼漂移,漂移失敗可能會翻車哦!今天小編為大家帶來了塵埃4慣性漂移方法詳解,下面一起來看看吧!
  • 針對3D 計算機視覺的簡介
    RGB-D 格式圖像就像一堆單值圖像,每個像素都有四個屬性,紅色,綠色,藍色和深度。在普通的基於像素的圖像中,我們可以通過(x,y)坐標定位任何像素,然後就可以分別獲得三種顏色屬性(R,G,B)。3D 視覺就像 2D 問題一樣,我們想要檢測並識別 3D 掃描圖像中的所有對象。但與 2D 圖像不同的是,為了充分使用 CNNs 方法的數據,它的最佳輸入格式該是什麼就成了一個需要解決的問題。
  • ICRA2019熱鬧開幕,李飛飛組觸感+視覺自監督學習機器人獲最佳論文
    論文摘要:在非結構化的環境中進行帶有豐富觸覺接觸的控制任務一般都同時需要利用觸覺反饋和視覺反饋。然而,想要得到一個可以同時利用觸覺、視覺這兩種具有完全不同特性的信號模態的機器人,為它手工設計一個控制器可不是一件容易的事情。
  • 受蜘蛛啟發,哈佛大學研究出超小體積深度傳感器
    你見過最小的相機是多大,你見過的最小的3D深度傳感器又是多大?他們如何解決3D傳感器的這些限制呢?哈佛物理系博士候選人、論文第一作者Zhujun Shi表示:"當前的光學和視覺方案已經種類繁多,他們基本上都是為不同的產品量身定製,而納米技術與光學設計結合,將有助於探索人造深度傳感器和視覺方案。而這裡提到的就是將超透鏡與超高效的算法相結合,即可一次完成深度測量。
  • 計算機視覺入門大全:基礎概念、運行原理、應用案例詳解
    通用策略深度學習方法和技術深刻改變了計算機視覺以及其他人工智慧領域,對於很多任務而言,使用深度學習方法已經成為標準操作。尤其是,卷積神經網絡(CNN)的性能超過了使用傳統計算機視覺技術所能達到的最優結果。以下四步展示了利用 CNN 構建計算機視覺模型的通用方法:創建一個包含標註圖像的數據集或者使用現有的數據集。
  • 深圳先進院研基於人體介電譜研發無創血糖傳感器
    近日,中國科學院深圳先進技術研究院醫工所微創中心聶澤東副研究員團隊設計了基於高場約束的表面等離子體傳感器於實現無創血糖的監測,相關研究成果以Surface Plasmonic Feature Microwave Sensor with Highly Confined fields for Aqueous-Glucose and Blood-Glucose Measurements
  • 對話90後創業者——速感科技CEO陳震:做業內領先的視覺導航定位...
    公司致力於幫助行業用戶利用低成本、高效的視覺融合技術解決空間中智能行動裝置與裝備的感知、定位、導航、規劃等關鍵應用問題。公司核心技術人員是國內最早從事視覺定位導航算法研發的技術團隊,高級管理層成員來自美國賓夕法尼亞大學沃頓商學院、清華大學經管學院等,有超過十年上市公司、諮詢公司及世界頂級IT公司管理及戰略併購經驗,創始人於2017年入選國家級「高聚工程」領軍人才計劃。
  • 油動多旋翼各種方案比較和發展趨勢(附PPT)|雷鋒網公開課
    雷鋒網按:本文內容來自常鋒無人機CEO趙自超在雷鋒網(公眾號:雷鋒網)硬創公開課的分享,由雷鋒網機器人垂直欄目「新智造(公眾號:新智造)」整理。其中,深圳常鋒信息技術有限公司全自主研發生產的天馬-1植保無人機搭載智能噴灑系統,採用RTK定位技術、雙天線測向技術、釐米級雷達測高技術,具有載荷量大、噴灑精準、定位精度高、抗地磁幹擾、仿地形飛行和全自主作業等特點,可大幅提高作業效率,降低作業成本。已在新疆等地推廣使用。多旋翼未來發展趨勢油動多旋翼的發展趨勢主要在於兩方面,一個是發動機,一個是旋翼。
  • 乾貨分享 | 深度學習零基礎進階大法!
    pixabay編者按:新手上路都會有一個疑問,如果自己沒有相關基礎,如何學習晦澀的專業知識?此前雷鋒網(公眾號:雷鋒網)編譯了《從0到1:我是如何在一年內無師自通機器學習的?》《Very deep convolutional networks for large-scale image recognition》是牛津大學視覺幾何組(VGG)Karen Simonyan 和 Andrew Zisserman 於 2014 年撰寫的論文,主要探討了深度對於網絡的重要性;並建立了一個 19層的深度網絡並獲得了很好的結果。該論文在 ILSVRC上定位第一,分類第二。