3D手勢識別背後的技術

2020-11-26 電子產品世界

隨著觸控螢幕技術的不斷推廣,用戶已經適應並逐漸熟悉了與機器的互動。現在,人機互動技術已邁上了更高的臺階,進入了手勢識別時代,不過這也並不是一帆風順的。手勢識別現已在娛樂及遊戲市場出現,然而這種技術將對我們的日常生活產生怎樣的影響呢?不妨假想一下,有人坐在沙發上,只需一揮手就能操控燈光和電視,或者汽車自動檢測附近是否有行人。隨著手勢識別技術支持人機互動的不斷深入發展,這些及其它功能將很快得以實現。手勢識別技術長期以來一直採用 2D 視覺進行研究,但隨著 3D 傳感器技術的出現,其應用將日益廣泛並多樣化。

本文引用地址:http://www.eepw.com.cn/article/201610/307147.htm

2D視覺的局限

計算機視覺技術一直在努力向堪比人類智慧的智能方向發展,以更好地了解場景。如果不能解釋周圍的世界,計算機就無法與人實現自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表徵、機器學習與識別等。由於 2D 場景表徵本身存在局限性,手勢識別系統必須應用其它各種提示信息才能得到包含更有用信息的更好結果。在可能性信息包含整個身體跟蹤時,儘管將多種提示信息整合在一起,單靠 2D 表徵也很難獲得超越手勢識別的任何信息。

z」(深度)創新

向 3D 視覺及手勢識別發展過程中的挑戰一直都是第三坐標 —z 軸坐標的獲取。人眼能看到 3D 對象,能自然識別 (x,y,z) 坐標軸,從而能夠看到一切事物,而後大腦能夠以 3D 影像的形式表達這些坐標軸。機器無法獲得 3D 視覺的一大挑戰就在於影像分析技術。目前有 3 種應對 3D 採集問題的常見解決方案,每種方案都有其獨特的功能與特定的用途。這三種方案分別為:立體視覺、結構光模式以及渡越時間 (TOF)。有了這些技術提供的 3D 影像輸出,就可實現手勢識別技術。

立體視覺

立體視覺系統可能是最為人所熟知的 3D 採集系統。該系統使用 2 個攝像機獲得左右立體影像,該影像有些輕微偏移,與人眼同序。計算機通過比較這兩個影像,就可獲得對應於影像中物體位移的不同影像。該不同影像或地圖可以是彩色的,也可以為灰階,具體取決於特定系統的需求。立體視覺系統目前通常用於 3D 電影,能帶來低成本而又震撼人心的娛樂體驗。

結構光模式

結構光模式可用來測量或掃描 3D 對象。在該類系統中,可在整個對象上照射結構光模式,光模式可使用雷射照明幹擾創建,也可使用投影影像創建。使用類似於立體視覺系統的攝像機,有助於結構光模式系統獲得對象的 3D 坐標。此外,單個 2D 攝像機系統也可用來測量任何單條的移位,然後通過軟體分析獲得坐標。無論使用什麼系統,都可使用坐標來創建對象外形的數字 3D 圖形。

渡越時間 (TOF)

渡越時間 (TOF) 傳感器是一種相對較新的深度信息系統。TOF 系統是一種光雷達 (LIDAR) 系統,同樣可從發射極向對象發射光脈衝。接收器則可通過計算光脈衝從發射器到對象,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。

TOF 系統不是掃描儀,因為其不支持點對點測量。TOF 系統可同時獲得整個場景,確定 3D 範圍影像。利用測量得到的對象坐標可創建 3D 影像,並可用於機器人、製造、醫療技術以及數碼攝影等領域的設備控制。

實施 TOF 系統所需的半導體器件現已開始供貨。目前的器件支持實現 TOF 系統所需的處理性能、速度與帶寬。

3D 視覺技術的比較

不同的應用或市場適用於不同的 3D 視覺技術。圖 1 顯示了不同 3D 視覺技術的比較及其相關響應時間、軟體複雜性、成本及準確性的相對優缺點。

立體視覺技術需要極高的軟體複雜性才能獲得高精度 3D 深度數據,其通常可通過數位訊號處理器 (DSP) 或多內核標量處理器進行處理。立體視覺系統支持小巧的外形與低成本,是行動電話等消費類設備的良好選擇。不過,立體視覺系統的精確度與響應時間不及其它技術,因此對於製造質量控制系統等要求高精度的系統來說不太理想。

結構光技術是包括 3D 計算機輔助設計 (CAD) 系統在內的 3D 對象掃描的良好解決方案。這些系統的相關軟體複雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等),其需要高昂的開發及材料成本。此外,該計算複雜性還可導致較慢的響應時間。在實現微觀層面上的高精度方面,結構光模式技術優於其它 3D 視覺技術。

TOF 系統取得了性能與成本的平衡,非常適用於需要快速響應時間的製造與消費類電子設備等應用領域的設備控制。TOF 系統軟體複雜程度通常較低,不過這些系統需要昂貴的照明部件(LED、雷射二極體)以及高速接口相關部件(快速 ADC、快速串行/並行接口、快速 PWM 驅動器),這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術的對比情況。

「z」(深度)如何影響人機界面

隨著「z」坐標的加入,顯示與影像更接近自然,更貼近人類。人們在顯示屏上能看到人眼從周邊環境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。

顯示

立體顯示屏

立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用於眾多 3D 電視與 3D 電影院。

多視點顯示屏

多視點顯視屏不同於立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像,每個影像稍微有些位移,形成適當的角度,讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實現全新的 3D 體驗。

檢測與應用

處理並顯示「z」坐標的功能將實現全新的應用,其中包括遊戲、製造控制、安全、互動數字標牌、遠程醫療、汽車以及機器人視覺等。圖 2 是身體骨架與深度映射傳感技術所支持的某些應用領域視圖。

人類手勢識別(消費類)

人類手勢識別是一項深受歡迎的新技術,可為遊戲、消費類以及移動產品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動,從而可促進產品推廣。這些人類手勢識別產品包括從 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各種解析度的 3D 數據。原始數據到z深度解析、雙手跟蹤以及全身跟蹤等軟體模塊需要數位訊號處理器 (DSP) 對 3D 數據進行高效快速處理,才能實現實時遊戲與跟蹤。

工業

工業與製造傳感器等大多數 3D 視覺工業應用都採用至少 1 像素至數 100k 像素的影像系統。3D 影像可使用 DSP 技術進行控制分析,確定製造瑕疵或者從部件集中選擇正確的部件。

互動數字標牌(精確定位的市場營銷工具)

每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機場登機都是如此。有了互動數字標牌,企業就可通過精確定位的市場營銷工具提供適合每位消費者的內容。例如,有人走過一個數字標牌,標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息,該標牌可能會理解為客戶對產品感興趣,並提供更有針對性的消息。麥克風則將讓廣告牌檢測並識別關鍵短語,進一步精確定位所提供的消息。

這些互動數字標牌系統將需要 3D 傳感器進行全面的身體跟蹤,2D 傳感器進行面部識別,並需要麥克風進行語音識別。這些系統的軟體將運行在更高級的 DSP 及通用處理器 (GPP) 上,不但可實現面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應用,而且還可提供諸如 MPEG4 視頻解碼等功能。

醫療(無故障虛擬/遠程護理)

3D 視覺將為醫療領域帶來前所未有的全新應用。醫生無需跟患者共處一室就可問診。遠程虛擬護理採用高精度 3D 傳感器支持的醫學機器人視覺系統,可確保為每一位患者提供最優質的醫療護理,無論他們身處何方。

汽車(安全)

近期,汽車應用在交通信號、車道以及障礙檢測方面使用 2D 傳感器技術取得了長足發展。隨著 3D 傳感技術的到來,3D 傳感器的「z」數據將大幅提升場景分析的可靠性。汽車通過使用 3D 視覺系統,現已有了預防事故的新途徑,無論白天還是夜間都非常適用。採用 3D 傳感器,車輛能可靠檢測並解讀周邊環境,確定對象是否對車輛及車內乘客構成安全威脅。這些系統要求軟硬體支持 3D 視覺系統,並需要密集型 DSP 及 GPP 處理性能在極短時間內解讀 3D 圖形,避免事故。

視頻會議

視覺會議技術經過多年發展,已經從間斷脫節傳輸影像發展成當前的高清系統。未來增強型視頻會議將充分發揮 3D 傳感器的優勢,提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統具有集成型 2D 傳感器以及 3D 傳感器及麥克風組合,將能夠與其它增強型系統連接,實現高質量的視頻處理、面部識別、3D 影像、噪聲消除以及內容播放器(Flash 等)等應用。隨著這種密集型音視頻處理需求的出現,需要具備最佳性能及外設組合的 DSP。

技術處理步驟

對許多應用而言,需要同時具備 2D 和 3D 攝像機系統才能充分實現應用技術。圖 3 顯示了這些系統的基本數據路徑。從傳感器獲取數據,然後進行視覺分析,這並不像數據路徑示意圖看上去那麼簡單。具體而言,TOF 傳感器需要的帶寬相當於 2D 傳感器的 16 倍之多,這可導致高輸入/輸出 (I/O) 問題。另一個瓶頸則存在於原始 3D 數據向 3D 點雲轉換的處理過程中。通過正確的軟硬體組合解決這些問題,對於手勢識別及 3D 的成功應用至關重要。當前數據路徑可通過DSP/GPP 處理器組合加上分立式模擬組件及軟體庫實現。

3D 視覺嵌入式系統的挑戰

輸入挑戰

如前所述,輸入帶寬限制對 3D 視覺嵌入式系統提出了極大的挑戰。此外,輸入接口也沒有標準化。設計人員可為 2D 傳感器與通用外部存儲器接口選擇採用不同的輸入選項,其中包括串行與並行接口。在支持最佳帶寬的標準輸入接口出現之前,設計人員只能使用現有的接口。

兩種不同的處理器架構

圖 3 所示的 3D 深度映射處理可分為兩類:一是以數據為中心的視覺專用處理,二是應用上層處理。以數據為中心的視覺專用處理需要處理器架構能夠執行單指令多數據 (SIMD) 快速浮點乘法及加法運算,以及快速搜索算法。DSP 是快速可靠執行這種處理功能的完美選擇。對於應用上層處理而言,高級作業系統 (OS) 及協議棧則可提供任何應用上層所需的必要特性集。

根據兩種處理器架構要求,提供高數據速率 I/O GPP+DSP+SIMD 處理器的片上系統 (SoC) 非常適合 3D 視覺處理,其可支持必要的數據及應用上層處理。

缺乏標準中間件

3D 視覺處理領域的中間件是多種來源的眾多不同組件的整合,包括開源(如 OpenCV)與專有商業源等。商業庫主要針對身體跟蹤應用,這是一種特定的 3D 視覺應用。目前尚未開發出針對所有不同 3D 視覺應用標準化的中間件接口。

「z」(深度)之後會有什麼精彩?

沒有人質疑 3D 視覺的誘人因素。工程師早已在期待未來的應用發展。那麼不久的將來會出現哪些最新技術?研究人員已經在開發針對人和對象的各種視覺技術了。全球研究人員正在使用多路徑光分析技術,探索實現轉角視覺或繞開對象的視覺途徑。透明研究將帶來可透視對象和材料的系統,而運動檢測系統則將帶來查看人類大腦內部的應用,從而可檢驗一個人是否在撒謊。

3D 視覺與手勢識別技術的發展會帶來無盡的可能性。不過,如果沒有支持這些振奮人心的新技術所必須的硬體及中間件,該研究將沒有任務意義。提供 GPP+DSP+SIMD(通用處理器+數位訊號處理器+單指令多數據流)架構的 SoC(系統晶片)不斷發展,將提供處理性能、外設支持以及必要帶寬的完美組合,從而可實現這種振奮人心的技術與應用。

相關焦點

  • 基於電場感應原理的3D手勢識別技術,你會玩嗎?
    因此,其他一些非光學的3D手勢識別技術就成為人們的重要選項。其中比較有代表性的,要數Microchip公司的GestIC技術。今天我們就來看看如何才能玩轉基於電場感應原理的3D手勢識別技術?   人機互動可以算是對電子產品的用戶體驗影響最直接的一個技術。當年蘋果藉由電容觸控屏,將鍵盤、滑鼠、軌跡球等一眾技術拉下馬的景象,相信很多人還記憶猶新。
  • 簡單解讀VR/AR主流光學手勢識別技術
    談起手勢識別技術,由簡單粗略的到複雜精細的,大致可以分為三個等級:二維手型識別、二維手勢識別、三維手勢識別。在具體討論手勢識別之前,我們有必要先知道二維和三維的差別。前兩種手勢識別技術,完全是基於二維層面的,它們只需要不含深度信息的二維信息作為輸入即可。就像平時拍照所得的相片就包含了二維信息一樣,我們只需要使用單個攝像頭捕捉到的二維圖像作為輸入,然後通過計算機視覺技術對輸入的二維圖像進行分析,獲取信息,從而實現手勢識別。而第三種手勢識別技術,是基於三維層面的。
  • Time of Flight(飛行時間技術)——三維手勢識別
    相比於前兩種二維手勢識別技術,三維手勢識別不能再只使用單個普通攝像頭,因為單個普通攝像頭無法提供深度信息。要得到深度信息需要特別的硬體,目前世界上主要有3種硬體實現方式。加上新的先進的計算機視覺軟體算法就可以實現三維手勢識別了。下面就讓小編為大家一一道來三維手勢識別的三維成像硬體原理。
  • 3D手勢識別不是VR交互的唯一選擇
    但實際上,手部動作識別的解決方案並不是只有Leap Motion一家公司有,技術原理上也並不是只有這一個方向。只不過因為Oculus的對Leap Motion的大力支持,伴隨著Oculus Rift的高曝光率,使得Leap Motion的3D手勢識別被公眾所熟知。3D手勢識別並不是VR交互領域手部動作識別方案的唯一,其實可以分為二維手型識別、二維手勢識別、三維手勢識別三種。
  • 手勢識別比賽奪冠,阿爾法蛋大蛋2.0的技術太強!
    其實,阿爾法蛋大蛋2.0的指讀功能的實現集合了許多種技術,其中有一項關鍵技術叫做手勢識別——在科大訊飛的手勢識別技術基礎上,淘雲科技針對兒童使用的場景進行了深度優化,才能讓大蛋2.0「看到」孩子手指的內容、幫助孩子學習字詞、課文等。
  • 體感交互的極致——用 Wi-Fi 識別手勢
    除了紅外線和攝像頭,就不能來點更新的手勢識別技術嗎?!那麼,用 WiFi 信號來識別手勢怎麼樣?華盛頓大學的幾名技術宅不僅這麼想了,而且還做出來了。據 Hackaday 報導, 近日美國華盛頓大學的 4 名研發人員向公眾展示了一項名為 WiSee  技術,這項技術通過家中的 Wi-Fi 信號來感知使用者的手勢,以此來控制家中的電子設備。
  • 凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用
    凌感科技此次和詮視科技的戰略合作著力於VR/AR領域的手勢追蹤技術的結合,由凌感科技提供手勢識別的軟體算法,基於此算法,搭載了詮視視覺模組的VR/AR設備可以實現手部的3D骨骼識別和跟蹤。 凌感和詮視都是專攻VR/AR領域的技術公司,但是在技術層面上,雙方研究的方向並不相同。凌感科技專攻手勢識別/骨骼識別以及6DoF Slam技術、物體識別等。
  • 可穿戴手勢識別系統 助截肢患者控制假肢
    記者近日獲悉,哈爾濱工業大學儀器科學與工程學院儀器科學與技術專業電測技術及智能控制研究所孫金瑋教授團隊完成了「用於仿生機械手的可穿戴可攜式實時控制手勢識別系統」研究,成果在線發表於最新一期《物理學雜誌》上。
  • 韓國科學技術院利用手勢追蹤研發全新3D素描系統
    文章相關引用及參考:3dprintingindustry韓國科學技術院的研究人員 開發了「懸空腳手架」的功能(映維網 2018年07月30日)韓國科學技術院的研究人員開發出了一種全新的工業設計學院的Seok-Hyung Bae說道:「我們通過很多方法來鼓勵各個領域中基於先進計算機技術的創意活動。基於設計師的深入理解,我們通過應用尖端技術來帶頭創新設計流程。」藉助先進的3D設計工具,Bae教授和研究團隊開始為專業設計師研發名為ILoveSketch的3D素描系統。
  • 小米9最新MIUI測試版中增加黑科技「3D空中手勢」功能
    雖然我們暫時還不確定哪些應用程式會支持這個3d空中手勢功能,但或許可以通過系統優化慢慢支持大部門比較常用的手機應用。這個手勢功能或許是通過大多數手機上的加速度器和陀螺儀的傳感器數據來實現的,不過也有可能需要其他功能,因為我們還沒有關於該功能如何工作的任何確切細節。
  • 一公司推出1mm精度超聲波ToF手勢識別
    【PConline 資訊】手勢識別並不是一個新概念,但一直以來手勢識別的精度並不是很高。最近,一家初創公司——Chirp公司推出了一款微型超聲傳感器(基於微機電系統(MEMS)的飛行時間(ToF)傳感器),該傳感器利用超聲換能器,通過手部和手指手勢為用戶提供對其設備的免觸摸控制,幫助實現真正的移動VR並創造下一代用戶界面。在最近的技術demo中,用戶可以在空中通過手勢控制平板電腦。
  • 使用ToF 傳感器進行距離測量和手勢識別的基本原理
    使用 ToF 傳感器進行距離測量和手勢識別的基本原理 肖冰 發表於 2019-08-09 13:59:23 很多應用需要在不接觸實際物體的情況下,感測物體的存在或距離
  • 「3d掃描儀結合3d列印技術」學校3d創新教育的一把利器
    3d創新教育是以培養學生創新精神、創新能力、動手實踐能力為價值取向的新型教育。在3d創新教育中,我們要如何讓「3d掃描儀、3d列印技術」這兩把利器發揮重要作用呢?從提供3d掃描獲取數據到3d設計、數據再創造再到3d列印創意實現的完整解決方案是廣大師生的呼聲,更是教育改革時代背景下的一條創新之路。
  • 基於FPGA的手勢語音轉換器
    我們的手語語音轉換器目的就是就是通過它提供一種有效的途徑將聾啞人的手勢識別出來,並轉換成我們普通人所習慣的語音信息,從而實現聾啞人與我們的有效溝通。目前手語識別可以分為基於視覺的識別系統和基於數據手套的識別系統。基於視覺的手勢識別系統採用常見的視頻採集設備作為手勢感知輸入設備,價格便宜、便於安裝。
  • 3D人臉識別:結構光還還是TOF?
    而3D人臉識別目前又主要有3D結構光和TOF兩類技術。 下面我們一起來看下近期發布的一些支持3D人臉識別手機和其背後的技術供應商以及準備進入手機市場的一些3D技術供應商: 小米8透明探索版 目前,國內的3D技術/模組廠商未動科技和舜宇都有與其合作。 去年7月,未動科技宣布聯合pmd發布移動端3D視覺套件。該套件將為全球包括手機、VR/AR、無人機、機器人等在內的移動終端提供低功耗、高幀率、高精度、高穩定性的3D手勢識別等功能。
  • 支付寶「5億」集五福:AR集福加入手勢識別新玩法
    值得一提的是,今年的AR集福支持了手勢識別的新玩法。所謂手勢識別就是需要一個玩家做出「五福」的手勢,另一個玩家用AR進行掃描,同樣可以獲得相應的福字。「我們覺得大家是把五福當過年儀式了,希望家人聚一起能多個樂呵,多些福氣,多點年味,在乎的並不是最後有幾塊錢。
  • 蘋果新專利:基於結構光投影的隔空手勢方案
    4月1日消息,美國專利商標局發布了蘋果一項新專利,專利中指出了一種基於結構光和投影系統的隔空手勢方案,如果與ToF等3D攝像頭結合或可用於手機、平板等設備。
  • 「V手勢」拍照真的會被盜指紋嗎?
    」,但是前段時間「V手勢」拍照會被盜指紋一事網上觀點沸沸揚揚,那麼,這個經典pose真的會被盜指紋嗎?「在技術上是可以實現的,用高清攝像機獲取是可以的」,公安部第一研究所證件技術事業部博士尹德森也證實,指紋本就是外在的特徵,平常非常容易遺留下來,獲取的手段也很簡單,如果能將體現紋線,可以通過技術手段對圖像進行處理,從而將指紋信息提取出來。專家稱技術上可行,那麼,在實際操作中,擺V字手勢拍照被盜取指紋的可能性大麼?
  • 博世推出新款MEMS加速度計耳戴式版本 增強手勢識別和功耗管理
    打開APP 博世推出新款MEMS加速度計耳戴式版本 增強手勢識別和功耗管理 發表於 2019-06-20 11:27:06
  • 手勢交互新突破!ContactPose或助力未來XR再無手柄?
    最近熱度不斷攀升的Oculus Quest 2一體機,在手勢追蹤識別功能上進行了一系列升級,除了早期的特定手勢操控主界面,最新解決方案甚至實現了基於手部追蹤的全文本輸入操作——即便如此,Oculus對於目前在手勢識別技術上取得的成就依然不是非常滿意。