FRL:基於4顆黑白攝像頭,Quest如何實現3D手勢識別?

2020-12-14 騰訊網

售價僅399美元,低成本的VR一體機Oculus Quest自推出以來不斷為使用者帶來多樣化的玩法,比如無線大空間體驗、PC VR模式(Link),甚至還支持手勢識別,讓人不得不誇讚它的性價比。

據了解,Oculus Quest採用四顆黑白的廣角攝像頭,最初它們的作用是定位手柄,以及AR透視和環境掃描,後來隨著Facebook Reality Labs在算法上的突破,Quest也可以通過這四顆攝像頭來實現準確率較高的手勢識別。手勢識別的好處是,VR用戶無須用手柄,戴上頭顯後直接就能通過手勢進行界面控制,一些VR應用搭配手勢識別後,交互更自然,玩法也更多樣化。

那麼,Quest的手勢識別算法到底是什麼原理呢?近期,Facebook Reality Labs在一篇名為《MEgATrack:黑白第一人稱攝像頭追蹤手部節點的VR方案》中公開了其背後的更多細節。

FRL科研人員表示:除了深度攝像頭外,市面上較常見的還包括基於單目RGB攝像頭和神經網絡算法的手勢識別方案。單目RGB攝像頭更易集成,而且隨著機器學習技術提升,功能可以繼續強化。但將基於RGB攝像頭的手勢識別方案用於VR/AR依然存在一些問題,比如:單目方案難以直接識別3D手勢、通常需要搭配關鍵點回歸和實時姿態方案而無法獨立運行、時間上難以達到連貫和低抖動等。

對於上述問題,市面上還沒有成熟的解決方案。因此,FRL提出了一種基於4顆黑白攝像頭的手勢追蹤方案。該方案無須深度攝像頭,因此對算力和功耗的要求更小,特點是在環境(光線暗等環境)和雙手形狀等變量影響下依然能穩定運行,延時和抖動的情況足夠少。而且除了VR,Facebook表示該手勢識別方案也可以用於AR頭顯中。

硬體方面,該手勢識別方案基於4顆同步的VGA廣角攝像頭,每顆攝像頭的FOV可達150°(寬)x120°(高)x175°(對角線)。廣角攝像頭採用等距投影模型,光線的參數由與攝像頭主軸之間的角度來決定,因此也更適合預測手部關節點的距離而不是深度。

而軟體系統方面,這款手勢識別方案是基於FRL開發的一個手部關鍵點預測神經網絡架構,該架構由DetNet(識別網絡)和KeyNet(節點網絡)兩部分組成,特點是結合手勢識別歷史數據,來保持手勢預測結果在時間和空間層面的一致性,也就是說可有效減少抖動、延時等問題。此外,為了優化DetNet的計算效率,FRL採用了一個叫detection-by-tracking的方式來提升手勢識別效果、降低計算成本,優化後的手勢識別方案可在PC VR模式中以60Hz刷新率運行,在一體機的處理器中可以30Hz刷新率運行。

第一步:DetNet手勢邊界識別

具體來講,detection-by-tracking方法的流程是根據前兩次追蹤到的手勢來推斷當前手勢變化,接著將識別到的手部關鍵點投射在每顆攝像頭捕捉的數據中,並計算出最小包含圓(最小圓覆蓋測距算法),作為識別到的手勢識別結果。如果當前DetNet並未識別到任何手勢,它會開始渲染下一幀手勢,這時候DetNet只會在一顆攝像頭上運行。當一顆攝像頭識別到手勢後,其他攝像頭才會根據追蹤到的手勢來識別邊界框,並進行立體手勢追蹤。

總之,整個手勢識別過程足夠快速且高效,識別到的手勢邊框可保持時間連貫性,為後續的DetNet運行流程降低噪點產生的可能。

第二步:KeyNet手勢關鍵點預測

接下來,該手勢識別方案的第二大部分關鍵點預測網絡KeyNet開始發揮作用,它會根據DetNet預測的邊界框截取的手勢圖像來預測手部的21個3D節點。

通常,市面上的一些節點預測系統會單獨處理每一幀圖像,但如果用在基於多顆攝像頭的實時手勢識別系統中,會出現一些弊端,比如:預測遮擋手勢或是超出攝像頭視場角外手勢的準確性不高、時間連貫性不高、容易產生抖動等。

相比之下,KeyNet的圖像源來自於DetNet環節預測的邊界框以及截取的手勢圖像,為了讓邊界框截取完整的手勢,科研人員將截取圖像大小提升20%。此外,KeyNet還會參考上一幀推測的3D手勢,將21個關鍵點疊加在新的手勢圖像上。

然後,為了實現對不同大小手掌的準確追蹤,該方案在KeyNet預測節點基礎上,會在手部進入3D攝像頭視場角時同時預測手掌大小,並自動運行校正流程。

總結

總之,DetNet結合detection-by-tracking方案有效實現對多顆攝像頭前移動的手部的追蹤,而KeyNet則有效輸出空間和時間連貫的關鍵節點預測。整個方案可生成準確、低抖動的手勢識別和重建效果,適用於頻繁的實時手勢交互場景。通過自動校正,該手勢方案還可準確追蹤不同形狀、大小的手部。

儘管如此,目前該方案還存在許多局限,比如:難以理解和識別手與手、手與物體之間的交互,以及手部大小校正範圍有限等。這些問題對於手勢識別的準確性均有影響,因此科研人員也將繼續研究相關解決方案。未來,為了實現更沉浸的VR/AR效果,虛擬手勢畫面與真實物體或虛擬物體之間的自然交互必不可少,此前Magic Leap所展示的多種AR應用也以虛擬物體與實際空間的互動為賣點,看起來效果足夠好。相信隨著FRL經過對手勢識別技術的不斷探索,未來也會進一步優化AR/VR應用的手勢交互體驗。

相關焦點

  • 康奈爾研發的手套不僅識別手勢,還識別觸覺
    近年來,在Oculus Quest系列一體機的推動下,VR以更加「平易近人」的姿態切入C端遊戲市場,同時也讓更多VR玩家體驗到用手勢來交互的方式。Quest和Quest 2利用頭顯配備的4顆光學攝像頭和算法來識別手勢,優勢是低成本、性能足夠穩定、容易上手。
  • 基於3D攝像頭的AI人體行為模式識別系統SmartSp:進軍行為模式識別...
    文|蔡曉純 編輯|江倩君 2020年「創客中國」廣東省中小企業創新創業大賽暨第四屆「創客廣東」大賽省複賽完賽,盧大偉團隊的「基於3D攝像頭的AI人體行為模式識別系統SmartSp」創新項目,拿下新一代信息技術領域創客組別複賽最高分。
  • FRL光追手套打字方案揭秘:平均速度73字/分鐘,錯誤率僅2.4%
    不久前,青亭網就曾報導Facebook科研人員展示的一種基於光追手套的VR虛擬鍵盤方案,它的特點是利用Quest頭顯對光追手套上標記的識別,來替代實體鍵盤進行輸入。也就是說,你在任何表面上都可以模擬鍵盤輸入,在VR中你可以看到虛擬的鍵盤和輸入的文字。
  • 車載手勢識別「小規模量產」 國內有哪些技術提供商
    在這份特定的報告中,介紹了蘋果申請的3D人機接口發明,它能夠實現用戶的手勢識別與交互,進而對Mac電腦的功能進行控制。這背後是被蘋果收購的以色列PrimeSense公司,它是蘋果公司TrueDepth攝像頭和點陣投影器(Dot projector)背後的技術支持提供商。
  • Untouch推移動端3D手勢交互 稱視覺AI是下一個風口
    未動科技專注於計算機3D視覺智能交互軟硬體方案,基於自主研發的智能3D視覺交互算法,例如3D手勢識別、3D人臉識別、運動追蹤(SLAM)、場景重構等,賦予新型消費級智能設備與人、與場景的視覺交互能力。黎曼平臺——手機手勢交互產品
  • 人臉識別中雙目、單目、3D結構光攝像頭的區別
    打開APP 人臉識別中雙目、單目、3D結構光攝像頭的區別 RK主板方案商 發表於 2020-06-18 14:38:45 邁迪傑科技提供的rk3288人臉識別模組可支持雙目攝像頭和3D結構光攝像頭,在客戶諮詢中經常有被問到雙目的為什麼會比單目的成本高,區別在哪裡,他們的適用於哪些場景呢?
  • Untouch聯合廠商PMD全球推廣移動端3D手勢交互
    責任編輯:王碩 Untouch創始人兼CEO孫錚講話  中新網7月6日電 7月5日,智能視覺交互技術提供商Untouch正式發布4款3D視覺交互產品:3D手勢識別產品——黎曼平臺,3D人臉識別產品
  • CES第二天AR/VR匯總:索尼推出3D光場顯示方案
    原理是通過攝像頭追蹤人眼,然後分別對左右眼顯示不同內容,因此可呈現大範圍3D觀看效果,結合Ultrapleap可進行手勢交互。 3D顯示|索尼3D光場顯示方案
  • 谷歌推出基於AI的開源手勢識別算法,可識別單手21個骨骼點
    8月20日消息,谷歌發布全新的手勢識別技術,該技術集成於開源跨平臺框架MediaPipe(可為多種類型的感知數據構建處理流程),特點是採用機器學習技術,支持高準確性手勢和五指追蹤,可根據一幀圖像推斷出單手的21個立體節點。
  • 觀點丨凌宇智控張道寧:為什麼inside-out和手勢識別不能為用戶帶來「沉浸式體驗」
    首先說結論——我特別不看好inside-out和手勢識別技術短時間內能為消費者帶來沉浸式體驗這件事,尤其是在移動VR上。需要明確的一點,並不是某一項技術炒的比較火就證明這是一項有前景的道路。說出這樣的觀點,並非我們為了博人眼球或是其他,而是基於第一性原理所思考出的結果。
  • 探秘6顆攝像頭 亞馬遜Fire Phone拆解
    亞馬遜上個月發布了第一款智慧型手機Fire Phone,配備4.7英寸720p顯示屏,採用四核2.2GHz主頻處理器與2GB RAM。這款手機同時還配備了擁有F/2.0光圈的1300萬像素主攝像頭,支持光學防抖。
  • 這顆來自於特斯拉車內的攝像頭,作用只有監控這麼簡單嗎?
    個性化與自動駕駛在特斯拉的設想之中,這顆被安裝在車內的攝像頭可以捕捉到一名或多名車內乘員的相關位置和圖像,通過這些除了能夠計算車內人數之外,還可以確定不同高度、不同身體部位和車載系統之間的聯繫,這樣每一次進入車內都不需要手動調整座椅、後視鏡了。甚至當有人坐在後排,攝像頭也會自動識別並自動調整通風口。
  • 基於FPGA的雷射筆輔助教學系統設計與實現
    摘要:為了實現雷射筆與大屏幕的互動,基於常用的OV9650攝像頭模塊和315 MHz無線收發模塊,採用了一種FPGA架構實現雷射筆與大屏幕互動的設計方案。
  • 新iPhone的「第四顆攝像頭」怎麼用?
    來源:愛範兒在 iPhone 12 發布之前,許多人預測全新的 iPhone 12 Pro 系列會像其他手機廠商一樣,通過增加攝像頭來獲得更好的拍攝效果,而 iPhone 12 卻把寶貴的第四顆攝像頭位置,給了雷射雷達掃描儀(LiDAR)。
  • 谷歌智能音箱更新,玩轉攝像頭,但名歸Nest麾下
    Nest Hub Max:10英寸屏,廣角攝像頭,手勢識別從產品定義上來講,Google Nest Hub Max由Google Home Hub Max發展而來,可以看做谷歌在新版本上加入Nest的能力後的重新命名。外媒對於Home Hub和Nest Hub的主要區別概括為:大。
  • iPhone12概念圖:前後6顆攝像頭,看完iPhone11真心不香
    外媒根據目前iPhone12的相關傳聞,設計了一組有關iPhone12的概念渲染圖,在這組概念渲染圖中,iPhone12依然是劉海屏設計,但是後置攝像頭採用了四顆鏡頭的設計。iPhone12的屏幕正面採用的依然是劉海屏的設計外觀,劉海屏設計估計在蘋果的後續幾代手機當中將會依然存在,除非蘋果能夠突破目前的設計枷鎖,實現屏下前置攝像頭和人臉識別模塊的技術,才能夠真正地將劉海屏的設計給取消掉,不然劉海屏設計對iPhone12來說目前是最好的解決方案。
  • 【圖像識別】基於巴特沃斯低通濾波器實現虹膜識別matlab代碼
    1 簡介隨著全面資訊時代的到來,便捷可靠的身份認證技術越來越重要,傳統的身份認證方法已無法滿足信息安全的高要求
  • 4米以內實現遠程手勢控制!谷歌AI新研究讓你拋掉鍵鼠操控屏幕
    在行動裝置上實時、同步地感知人體姿勢、臉部標記和手勢跟蹤等可以實現各種有趣的應用,例如健身和運動分析、姿態控制和手語識別、擴增實境效果等等。谷歌的MediaPipe 是一個開源框架,專門為複雜的感知管道設計,利用加速推理(例如 GPU 或 CPU) 等已經為這些任務提供了快速、準確、獨立的解決方案。
  • 本周大新聞|Niantic要打造3D世界地圖,首個手勢FPS VR遊戲
    VR方面,德國VDC實測多款VR頭顯FOV,測試結果與官方宣城差距較大;SuperData報告,Quest 1在本季度銷量達16.1萬臺;Facebook VR辦公應用Infinite Office或推遲到明年;Oculus發布開發者檢查工具;微軟發布WMR設備視覺提升更新;bHaptics推出消費者版VR體感背心;首個基於手勢的FPS VR遊戲《Finger
  • 手勢識別比賽奪冠,阿爾法蛋大蛋2.0的技術太強!
    其實,阿爾法蛋大蛋2.0的指讀功能的實現集合了許多種技術,其中有一項關鍵技術叫做手勢識別——在科大訊飛的手勢識別技術基礎上,淘雲科技針對兒童使用的場景進行了深度優化,才能讓大蛋2.0「看到」孩子手指的內容、幫助孩子學習字詞、課文等。