摘要:隨著虛擬實境逐漸流行,出現了新的交互需求,傳統的交互方式並不能很好的在這一場景應用,因此在空間中的手勢識別方案被視為虛擬實境的理想交互方式。本文提出基於三維雷達陣列識別在消費電子控制場景中經常使用的10個人手手勢。該雷達陣列由三個相互垂直安裝的24 GHz K波段都卜勒連續波微型I / Q(同相和正交)收發器傳感器組成。從六個通道的I / Q信號中提取幅度和相位特徵以進行時間和頻譜分析。我們使用卷積神經網絡來實現識別。利用以頻譜為輸入的雙層CNN(卷積神經網絡)分類器進行識別。最後,論文對實驗進行了論證,並分別對雷達陣列的性能進行了分析。結果表明,該系統可以達到高於92%的高識別準確率。
關鍵詞:手勢識別,雷達陣列,都卜勒效應,卷積神經網絡。
1.介紹
為了便於未來的HCI(人機互動),手勢識別最近成為一個熱門的研究課題,它旨在將基於視覺圖像手勢解釋為數字信息傳輸給計算機[1]。攝像機和其他成像傳感器提供了直接捕獲手勢的簡單解決方案,因為圖像最容易被人類視覺神經元系統識別。然而,視覺圖像對計算機的解釋是不同的。圖像從多維數字數組轉換為一些不同的特徵,以便使計算機識別姿勢的含義。該過程可能導致對計算資源的需求增加,並且需要有效的算法來解釋視覺圖像。此外,照明也是影響該方法有效性的關鍵因素。同時,可穿戴的傳感器也是一種流行的實時手勢識別的解決方案[2]。然而,該解決方案需要牢固地佩戴在手上的傳感器,例如戴著一副手套。手的不適和不靈活是阻礙這種方法在日常生活中廣泛傳播的主要因素。在當今計算機技術發展的時代,微波工程已經成為手勢識別的一種新興的解決方案。同時,如今模擬和數字硬體的加速發展使得能夠以低成本開發毫米波段電路,從而使雷達成為用於手勢識別的傳感器更具吸引力。2016年,谷歌發布了Soli項目,該項目使用60GHz FMCW(調頻連續波)雷達來實現識別[3]。然而,該系統在很大程度上依賴於定製雷達晶片,該晶片仍處於早期開發階段[4]。與Soli不同,本文旨在找到使用可獲得的商業雷達傳感器來實現非接觸式手勢識別的經濟解決方案。本文的結構如下:在下一節討論手勢識別的發展。然後介紹了手部動力學模型,目標手勢和雷達陣列結構。此外,本文還規定了基帶I / Q(同相和正交)信號的處理,並通過實驗使用決策樹和CNN(卷積神經網絡)評估識別性能。最後,本文最後總結了這種丟失成本解決方案在未來應用中的建議。
2.先進的基於雷達的手勢識別系統
使用雷達技術實現手勢識別的概念受到使用揚聲器和麥克風識別不同手勢的嘗試的啟發[5]。但由於聲波的測距解析度有限,因此不再採用這種方法。CW(連續波)雷達具有結構簡單,靈敏度高,頻譜佔用窄等特點,能夠根據都卜勒效應比較雷達發射器和接收器之間電磁波的頻移,從而檢測目標移動速度。通過調製頻率,連續波雷達可以測量目標到天線的距離。使得能夠得知雷達天線主波束徑向上的目標位置。最近,基於雷達的傳感的大量工作已經證明了使用毫米連續波雷達的實時或近實時高解析度成像的能力[6]。此外,Molchanov和他的團隊通過使用25 GHz FMCW單脈衝雷達探測手勢識別,其範圍解析度為3.75 cm,用於智能駕駛輔助[7]。參考文獻[8]介紹了一種使用77 GHz FMCW雷達系統和隱馬爾可夫模型進行分類的手勢識別系統。在構建速度 - 能量矢量之前執行距離選通,該系統能夠實現手勢分類,同時消除可能破壞手勢識別任務的其他目標所貢獻的能量。此外,參考文獻 [9]演示了一種自動分類系統,該系統使用60.5 GHz雷達發送一系列線性調頻信號,帶寬為7 GHz。該分類系統允許同時高解析度測量8種人手和身體姿勢的距離和徑向速度,準確率高達95%。此外,[10]中描述了一個帶有片上天線的完全集成的94 GHz脈衝雷達收發器,可以在可攜式設備上檢測手指的移動並實現實時手勢檢測等應用。此外,手勢識別中最令人印象深刻的成就發布於2016年Google I / O大會Google展示了Soli項目的成就,該項目可以通過應用機器學習和處理時間信號來區分複雜的手指運動和手形變化[3] [11]。目前使用毫米波雷達進行手勢識別的研究主要是利用雷達信號處理來尋找分類特徵。典型的方法從設計調頻波形開始。雷達發射調頻電磁波,天線波束內的目標散射該能量,一部分被反射回雷達天線。可以使用二維FFT(快速傅立葉變換)將反射信號變換到頻域。發射的電磁波的頻率調製將使得能夠生成包含目標屬性的距離 - 都卜勒圖,例如位置和運動速度。CFAR(恆虛警率)檢測經常用於信號處理,以減少噪聲幹擾。然而,這些手勢方法高度依賴於雷達設備的性能。頻率調製增加了雷達設計複雜性和硬體成本。例如,Soli項目的大多數成就都在Alpha開發者計劃的框架內,這是一個由Google建立的封閉社區。在這個環境下,開發者會收到Google的開發板和軟體來進行應用和開發。
為了打破這種局面,本文提出了一種利用CW雷達的低成本開放式雷達機制。僅使用徑向速度信息,因此上述信號處理策略不適用。然而,這並非不可取,因為不包括位置信息將大大降低硬體成本。從這一點來看,有必要探討如何在這種約束下實現手勢識別。
3.手勢模型
手勢是人類手指,手掌,手腕和前臂的自然物理運動,旨在將有意義的信息從大腦傳遞給其他人。根據[12]中的模型,人手被建模為具有27個DoF(自由度)的系統。所有五個手指共有21個DoF,可以進行手掌或手指動作。其餘六個DoF來自手腕的旋轉和平移運動,每個都有3個DoF。在如何控制現代消費電子如手機和平板電腦產品等方面,用戶總是喜歡根據他們的私人習慣去選擇方便和舒適的手勢。大多數人都捏著筆記本電腦的觸摸板來放大或縮小屏幕。此外,Apple IPads屏幕上的四指滑動可以通過手指的屈曲和伸展以及手腕和有時前臂的平面內運動來幫助切換多任務。Fink和Wang用圖像和毫米波雷達測試了HCI對不同類型手勢的識別。參考[9]和[11]中的先前工作,我們還使用圖1中所示的手勢作為目標手勢。本研究中的10個手勢包括六個手部動作:(a)手由上到下,(b)手由下到上,(c)手推動,(d)手拉動,(e)手從左到右移動,(f)手從右到左移動;以及兩個手掌動作:(g)手掌開放,(h)手掌緊握;和兩個手指動作:(i)捏在一起,(j)分離。在圖1中,每個子圖的左側部分是起始手勢的狀態,右側部分是結束手勢的狀態。
手部運動頻率主要分布在100Hz以下,而其他運動具有高達200Hz的更寬頻率分布。與這些手部動作相反,手指運動在所有頻譜上顯示從0到100Hz的較小峰值,因為手指具有比整個手部更小的雷達橫截面。該解釋還可以解釋先前討論的時間信號幅度差異。
6.基於CNN的手勢動作識別
目前,CNN被認為是模式識別中的一種高效分類算法[14]。在分類中,它避免了複雜的預處理,直接利用原始數據作為輸入,並憑藉其獨特的網絡結構有效地降低了神經網絡的複雜性。儘管CNN具有高度的計算成本,但它在識別魯棒性方面優於決策樹。為此,我們提出了兩個卷積層的CNN來實現分類。所提出的CNN的整個結構如圖4所示。CNN的輸入是400×6矩陣,其行表示陣列中三個雷達的所有I / Q信號的頻譜幅度。網絡由兩個連續的卷積層組成,而每個層連續實現卷積,然後實現最大池化操作。在圖4中,卷積層中的每個數據不包含來自前一層的所有信息,它們僅連接到總數據的一小部分。
大多數CNN也遵循多卷積內核策略。在卷積層中使用一個內核可以提取一個特徵。因此,通過實現多個卷積核可以同時提取更多特徵。在所提出的卷積層中,我們將訓練的內核的大小設置為5×5,並且對於第一卷積層同時使用32個內核核心,而池化層的大小是1×2。對於第二卷積層,內核核心數量減少到2.內核核心的大小仍然是5×5.兩個卷積層搜索器共有64種類型的功能。在每個池化層之後,數據大小縮小到前一層大小的一半,並且由於1×2大小的最大池化功能,只有兩個鄰居數據中的較大的一個可以被傳送到下一層。在兩個卷積層之後,需要一個矢量大小為1024的全連接層來將所有局部特徵組合在一起。在完全連接層之後,利用Softmax模型給目標手勢一個概率結果。Softmax輸出層有5個手勢類,每個手勢類代表相反運動方向上的一對手勢,例如,分離和捏在一起。為了實現分類,我們還在Softmax函數之後提出了一個新層。添加該層以比較I / Q信號相位差。該CNN的訓練過程最初將所有模型參數設置為隨機值,除了初始化為零的偏差。在訓練過程中,CNN的參數隨著信號的處理而發生變化,誤差可以通過最終Softmax層的交叉熵成本函數的平均值來評估,旨在實現正確分類的最大概率[15]。最後,當優化成本函數並且準確率變得穩定時,訓練過程結束,網絡參數不變。
7.實驗和結果分析
為了驗證雷達陣列的有效性和效率,根據圖2中的配置實現了原型系統。時間信號的每個樣本以每通道5KHz的速率收集5000個點。實時採樣軟體是在LabVIEW中設計的。收集每個目標手勢200個樣本和標籤由雷達陣列。在本文中所有測試都是在交叉球體中心的手位置進行的。然後,邀請了四名具有不同性別和年齡的志願者參與實驗並重複他們的常規目標手勢。每個目標手勢被採樣100次。最後,每個目標手勢都有一個未標記的集合,裡面有400個樣本。該實驗使用2000個訓練樣本和4000個測試樣本來評估識別性能。
使用CNN分類器,所有六個手部動作都被識別,平均準確率高於99%。識別捏合和分開的準確度分別為96.25%和95.75%,CNN分類器正確率高的原因是可以根據其自適應機制自動修改神經網絡參數。
與此同時,結果也與[9]和[11]中的工作進行了對比。基於1NN分類器和Linear polynomial分類器,在[9]中,測試了圖1中的目標手勢(a) - (d)和(f)。1NN分類器的平均分類率為95.83%,與我們的結果相似。但Linear polynomial分類器的平均正確率僅為82.50%。在[11]中,作者利用Soli開發板去測試了11個手勢,幾乎覆蓋了本文中的所有目標手勢。但不同之處在於,他們在往返行程中測試了手勢,並相應地將如手向上和向下到一個類別。所以我們只比較了相應聚合類的準確率。在[11]的所有方法中,EtE CV-ses Avg的平均準確率高達94.15%,但其他方法如CNN Deep和RNN的準確率低於80%,尤其是手指和手掌動作識別。比較表明,我們的雷達陣列的準確率接近1NN分類器和EtE CV-ses Avg的正確率,並且遠高於[9]和[11]中的其他方法。因此,即使手勢很小,三維雷達陣列也能夠提供手勢的直接描述。更重要的是,使用易於採購的商用雷達傳感器就可以實現上述正確率。
8.結論
本文提出了一種利用雷達陣列實現非接觸式手勢識別的解決方案。手勢識別可與正在流行的虛擬實境設備相結合,從而提供更好的用戶體驗。與傳統方法不同,該雷達陣列利用三個24GHz連續波雷達來感測由10個典型手勢運動散射的電磁能量,並從I / Q信號中提取幅度和相位特徵。本文在識別中使用了CNN。利用兩個卷積層網絡,Softmax層和輸出層構建網絡。這個實驗使用2000組訓練和4000個測試數據去評估識別表現。該系統實現了高達94%的平均識別準確率,尤其是在識別手指運動時。通過與其他人的工作進行比較,這種三維連續波雷達陣列是手勢識別的另一種具有高準確率的解決方案。
(責編:尹崢、趙光霞)