3D手勢識別背後的技術

2020-11-26 電子產品世界

隨著觸控螢幕技術的不斷推廣，用戶已經適應並逐漸熟悉了與機器的互動。現在，人機互動技術已邁上了更高的臺階，進入了手勢識別時代，不過這也並不是一帆風順的。手勢識別現已在娛樂及遊戲市場出現，然而這種技術將對我們的日常生活產生怎樣的影響呢?不妨假想一下，有人坐在沙發上，只需一揮手就能操控燈光和電視，或者汽車自動檢測附近是否有行人。隨著手勢識別技術支持人機互動的不斷深入發展，這些及其它功能將很快得以實現。手勢識別技術長期以來一直採用 2D 視覺進行研究，但隨著 3D 傳感器技術的出現，其應用將日益廣泛並多樣化。

本文引用地址：http://www.eepw.com.cn/article/201610/307147.htm

2D視覺的局限

計算機視覺技術一直在努力向堪比人類智慧的智能方向發展，以更好地了解場景。如果不能解釋周圍的世界，計算機就無法與人實現自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表徵、機器學習與識別等。由於 2D 場景表徵本身存在局限性，手勢識別系統必須應用其它各種提示信息才能得到包含更有用信息的更好結果。在可能性信息包含整個身體跟蹤時，儘管將多種提示信息整合在一起，單靠 2D 表徵也很難獲得超越手勢識別的任何信息。

「z」(深度)創新

向 3D 視覺及手勢識別發展過程中的挑戰一直都是第三坐標 —z 軸坐標的獲取。人眼能看到 3D 對象，能自然識別 (x,y,z) 坐標軸，從而能夠看到一切事物，而後大腦能夠以 3D 影像的形式表達這些坐標軸。機器無法獲得 3D 視覺的一大挑戰就在於影像分析技術。目前有 3 種應對 3D 採集問題的常見解決方案，每種方案都有其獨特的功能與特定的用途。這三種方案分別為：立體視覺、結構光模式以及渡越時間 (TOF)。有了這些技術提供的 3D 影像輸出，就可實現手勢識別技術。

立體視覺

立體視覺系統可能是最為人所熟知的 3D 採集系統。該系統使用 2 個攝像機獲得左右立體影像，該影像有些輕微偏移，與人眼同序。計算機通過比較這兩個影像，就可獲得對應於影像中物體位移的不同影像。該不同影像或地圖可以是彩色的，也可以為灰階，具體取決於特定系統的需求。立體視覺系統目前通常用於 3D 電影，能帶來低成本而又震撼人心的娛樂體驗。

結構光模式

結構光模式可用來測量或掃描 3D 對象。在該類系統中，可在整個對象上照射結構光模式，光模式可使用雷射照明幹擾創建，也可使用投影影像創建。使用類似於立體視覺系統的攝像機，有助於結構光模式系統獲得對象的 3D 坐標。此外，單個 2D 攝像機系統也可用來測量任何單條的移位，然後通過軟體分析獲得坐標。無論使用什麼系統，都可使用坐標來創建對象外形的數字 3D 圖形。

渡越時間 (TOF)

渡越時間 (TOF) 傳感器是一種相對較新的深度信息系統。TOF 系統是一種光雷達 (LIDAR) 系統，同樣可從發射極向對象發射光脈衝。接收器則可通過計算光脈衝從發射器到對象，再以像素格式返回到接收器的運行時間來確定被測量對象的距離。

TOF 系統不是掃描儀，因為其不支持點對點測量。TOF 系統可同時獲得整個場景，確定 3D 範圍影像。利用測量得到的對象坐標可創建 3D 影像，並可用於機器人、製造、醫療技術以及數碼攝影等領域的設備控制。

實施 TOF 系統所需的半導體器件現已開始供貨。目前的器件支持實現 TOF 系統所需的處理性能、速度與帶寬。

3D 視覺技術的比較

不同的應用或市場適用於不同的 3D 視覺技術。圖 1 顯示了不同 3D 視覺技術的比較及其相關響應時間、軟體複雜性、成本及準確性的相對優缺點。

立體視覺技術需要極高的軟體複雜性才能獲得高精度 3D 深度數據，其通常可通過數位訊號處理器 (DSP) 或多內核標量處理器進行處理。立體視覺系統支持小巧的外形與低成本，是行動電話等消費類設備的良好選擇。不過，立體視覺系統的精確度與響應時間不及其它技術，因此對於製造質量控制系統等要求高精度的系統來說不太理想。

結構光技術是包括 3D 計算機輔助設計 (CAD) 系統在內的 3D 對象掃描的良好解決方案。這些系統的相關軟體複雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等)，其需要高昂的開發及材料成本。此外，該計算複雜性還可導致較慢的響應時間。在實現微觀層面上的高精度方面，結構光模式技術優於其它 3D 視覺技術。

TOF 系統取得了性能與成本的平衡，非常適用於需要快速響應時間的製造與消費類電子設備等應用領域的設備控制。TOF 系統軟體複雜程度通常較低，不過這些系統需要昂貴的照明部件(LED、雷射二極體)以及高速接口相關部件(快速 ADC、快速串行/並行接口、快速 PWM 驅動器)，這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術的對比情況。

「z」(深度)如何影響人機界面

隨著「z」坐標的加入，顯示與影像更接近自然，更貼近人類。人們在顯示屏上能看到人眼從周邊環境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。

顯示

立體顯示屏

立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像，兩眼看到的影像不同，讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用於眾多 3D 電視與 3D 電影院。

多視點顯示屏

多視點顯視屏不同於立體顯示屏，無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像，每個影像稍微有些位移，形成適當的角度，讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果，在不久的將來將實現全新的 3D 體驗。

檢測與應用

處理並顯示「z」坐標的功能將實現全新的應用，其中包括遊戲、製造控制、安全、互動數字標牌、遠程醫療、汽車以及機器人視覺等。圖 2 是身體骨架與深度映射傳感技術所支持的某些應用領域視圖。

人類手勢識別(消費類)

人類手勢識別是一項深受歡迎的新技術，可為遊戲、消費類以及移動產品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動，從而可促進產品推廣。這些人類手勢識別產品包括從 160 x 120 像素到 640 x 480 像素，30 到 60 fps 的各種解析度的 3D 數據。原始數據到z深度解析、雙手跟蹤以及全身跟蹤等軟體模塊需要數位訊號處理器 (DSP) 對 3D 數據進行高效快速處理，才能實現實時遊戲與跟蹤。

工業

工業與製造傳感器等大多數 3D 視覺工業應用都採用至少 1 像素至數 100k 像素的影像系統。3D 影像可使用 DSP 技術進行控制分析，確定製造瑕疵或者從部件集中選擇正確的部件。

互動數字標牌(精確定位的市場營銷工具)

每天我們都在遭受廣告的轟炸，無論是看電視、開車還是在機場登機都是如此。有了互動數字標牌，企業就可通過精確定位的市場營銷工具提供適合每位消費者的內容。例如，有人走過一個數字標牌，標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息，該標牌可能會理解為客戶對產品感興趣，並提供更有針對性的消息。麥克風則將讓廣告牌檢測並識別關鍵短語，進一步精確定位所提供的消息。

這些互動數字標牌系統將需要 3D 傳感器進行全面的身體跟蹤，2D 傳感器進行面部識別，並需要麥克風進行語音識別。這些系統的軟體將運行在更高級的 DSP 及通用處理器 (GPP) 上，不但可實現面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應用，而且還可提供諸如 MPEG4 視頻解碼等功能。

醫療(無故障虛擬/遠程護理)

3D 視覺將為醫療領域帶來前所未有的全新應用。醫生無需跟患者共處一室就可問診。遠程虛擬護理採用高精度 3D 傳感器支持的醫學機器人視覺系統，可確保為每一位患者提供最優質的醫療護理，無論他們身處何方。

汽車(安全)

近期，汽車應用在交通信號、車道以及障礙檢測方面使用 2D 傳感器技術取得了長足發展。隨著 3D 傳感技術的到來，3D 傳感器的「z」數據將大幅提升場景分析的可靠性。汽車通過使用 3D 視覺系統，現已有了預防事故的新途徑，無論白天還是夜間都非常適用。採用 3D 傳感器，車輛能可靠檢測並解讀周邊環境，確定對象是否對車輛及車內乘客構成安全威脅。這些系統要求軟硬體支持 3D 視覺系統，並需要密集型 DSP 及 GPP 處理性能在極短時間內解讀 3D 圖形，避免事故。

視頻會議

視覺會議技術經過多年發展，已經從間斷脫節傳輸影像發展成當前的高清系統。未來增強型視頻會議將充分發揮 3D 傳感器的優勢，提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統具有集成型 2D 傳感器以及 3D 傳感器及麥克風組合，將能夠與其它增強型系統連接，實現高質量的視頻處理、面部識別、3D 影像、噪聲消除以及內容播放器(Flash 等)等應用。隨著這種密集型音視頻處理需求的出現，需要具備最佳性能及外設組合的 DSP。

技術處理步驟

對許多應用而言，需要同時具備 2D 和 3D 攝像機系統才能充分實現應用技術。圖 3 顯示了這些系統的基本數據路徑。從傳感器獲取數據，然後進行視覺分析，這並不像數據路徑示意圖看上去那麼簡單。具體而言，TOF 傳感器需要的帶寬相當於 2D 傳感器的 16 倍之多，這可導致高輸入/輸出 (I/O) 問題。另一個瓶頸則存在於原始 3D 數據向 3D 點雲轉換的處理過程中。通過正確的軟硬體組合解決這些問題，對於手勢識別及 3D 的成功應用至關重要。當前數據路徑可通過DSP/GPP 處理器組合加上分立式模擬組件及軟體庫實現。

3D 視覺嵌入式系統的挑戰

輸入挑戰

如前所述，輸入帶寬限制對 3D 視覺嵌入式系統提出了極大的挑戰。此外，輸入接口也沒有標準化。設計人員可為 2D 傳感器與通用外部存儲器接口選擇採用不同的輸入選項，其中包括串行與並行接口。在支持最佳帶寬的標準輸入接口出現之前，設計人員只能使用現有的接口。

兩種不同的處理器架構

圖 3 所示的 3D 深度映射處理可分為兩類：一是以數據為中心的視覺專用處理，二是應用上層處理。以數據為中心的視覺專用處理需要處理器架構能夠執行單指令多數據 (SIMD) 快速浮點乘法及加法運算，以及快速搜索算法。DSP 是快速可靠執行這種處理功能的完美選擇。對於應用上層處理而言，高級作業系統 (OS) 及協議棧則可提供任何應用上層所需的必要特性集。

根據兩種處理器架構要求，提供高數據速率 I/O GPP+DSP+SIMD 處理器的片上系統 (SoC) 非常適合 3D 視覺處理，其可支持必要的數據及應用上層處理。

缺乏標準中間件

3D 視覺處理領域的中間件是多種來源的眾多不同組件的整合，包括開源(如 OpenCV)與專有商業源等。商業庫主要針對身體跟蹤應用，這是一種特定的 3D 視覺應用。目前尚未開發出針對所有不同 3D 視覺應用標準化的中間件接口。

「z」(深度)之後會有什麼精彩?

沒有人質疑 3D 視覺的誘人因素。工程師早已在期待未來的應用發展。那麼不久的將來會出現哪些最新技術?研究人員已經在開發針對人和對象的各種視覺技術了。全球研究人員正在使用多路徑光分析技術，探索實現轉角視覺或繞開對象的視覺途徑。透明研究將帶來可透視對象和材料的系統，而運動檢測系統則將帶來查看人類大腦內部的應用，從而可檢驗一個人是否在撒謊。

3D 視覺與手勢識別技術的發展會帶來無盡的可能性。不過，如果沒有支持這些振奮人心的新技術所必須的硬體及中間件，該研究將沒有任務意義。提供 GPP+DSP+SIMD(通用處理器+數位訊號處理器+單指令多數據流)架構的 SoC(系統晶片)不斷發展，將提供處理性能、外設支持以及必要帶寬的完美組合，從而可實現這種振奮人心的技術與應用。

3D手勢識別背後的技術

相關焦點

基於電場感應原理的3D手勢識別技術,你會玩嗎?

簡單解讀VR/AR主流光學手勢識別技術

Time of Flight(飛行時間技術)——三維手勢識別

3D手勢識別不是VR交互的唯一選擇

手勢識別比賽奪冠,阿爾法蛋大蛋2.0的技術太強!

體感交互的極致——用 Wi-Fi 識別手勢

凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用

可穿戴手勢識別系統助截肢患者控制假肢

韓國科學技術院利用手勢追蹤研發全新3D素描系統

小米9最新MIUI測試版中增加黑科技「3D空中手勢」功能

一公司推出1mm精度超聲波ToF手勢識別

使用ToF 傳感器進行距離測量和手勢識別的基本原理

「3d掃描儀結合3d列印技術」學校3d創新教育的一把利器

基於FPGA的手勢語音轉換器

3D人臉識別:結構光還還是TOF?

支付寶「5億」集五福:AR集福加入手勢識別新玩法

蘋果新專利:基於結構光投影的隔空手勢方案

「V手勢」拍照真的會被盜指紋嗎?

博世推出新款MEMS加速度計耳戴式版本增強手勢識別和功耗管理

手勢交互新突破!ContactPose或助力未來XR再無手柄?

3D手勢識別背後的技術

相關焦點

基於電場感應原理的3D手勢識別技術,你會玩嗎?

簡單解讀VR/AR主流光學手勢識別技術

Time of Flight(飛行時間技術)——三維手勢識別

3D手勢識別不是VR交互的唯一選擇

手勢識別比賽奪冠,阿爾法蛋大蛋2.0的技術太強!

體感交互的極致——用 Wi-Fi 識別手勢

凌感手勢追蹤算法與詮視視覺模組結合,加速手勢識別在VR/AR中的應用

可穿戴手勢識別系統 助截肢患者控制假肢

韓國科學技術院利用手勢追蹤研發全新3D素描系統

小米9最新MIUI測試版中增加黑科技「3D空中手勢」功能

一公司推出1mm精度超聲波ToF手勢識別

使用ToF 傳感器進行距離測量和手勢識別的基本原理

「3d掃描儀結合3d列印技術」學校3d創新教育的一把利器

基於FPGA的手勢語音轉換器

3D人臉識別:結構光還還是TOF?

支付寶「5億」集五福:AR集福加入手勢識別新玩法

蘋果新專利:基於結構光投影的隔空手勢方案

「V手勢」拍照真的會被盜指紋嗎?

博世推出新款MEMS加速度計耳戴式版本 增強手勢識別和功耗管理

手勢交互新突破!ContactPose或助力未來XR再無手柄?

可穿戴手勢識別系統助截肢患者控制假肢

博世推出新款MEMS加速度計耳戴式版本增強手勢識別和功耗管理