新智元報導
作者:Ivan Grishchenko & Valentin Bazarevsky
【新智元導讀】谷歌MediaPipe Holistic為突破性的 540 多個關鍵點(33 個姿勢、21 個手和468 個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能。
在行動裝置上對人體姿勢、人臉關鍵點和手部追蹤的實時同步感知,可以實現各種有趣的應用,如健身和運動分析、手勢控制和手語識別、增強現實效果等。
谷歌之前發布的MediaPipe就是一個專門為GPU或CPU而設計的開源框架,已經為這些單個任務提供了快速、準確而又獨立的解決方案。
但將它們實時組合成一個語義一致的端到端解決方案,仍是一個難題,需要多個依賴性神經網絡的同步推理。
不久前,谷歌發布了 MediaPipe Holistic,就是針對上述挑戰而提出一個解決方案,提出一個最新最先進的人體姿勢拓撲結構,可以解鎖新的應用。
MediaPipe Holistic 示例
MediaPipe Holistic 由一個新的 pipelines 組成,該 pipelines 具有優化的姿態、人臉和手部組件,每個組件都實時運行,儘量降低內存傳輸成本,並根據質量/速度的權衡,增加了對三個組件互換性的支持。
當包含所有三個組件時,MediaPipe Holistic 為突破性的 540 多個關鍵點(33 個姿勢、21 個手部和 468個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能!
MediaPipe Holistic 作為 MediaPipe 的一部分,並在行動裝置(Android、iOS)和桌面設備上提供。還將引入 MediaPipe 新的即用型 API,用於研究(Python端)和網頁推理(JavaScript端),以方便更多人使用。
Pipeline and Quality
MediaPipe Holistic pipelines 集成了姿勢、面部和手部組件的獨立模型,每個組件都針對其特定領域進行了優化,每個組件的推斷輸入圖不同。
MediaPipe Holistic 首先通過 BlazePose 的姿勢檢測器和後續的關鍵點模型來估計人的姿勢。然後,利用推斷出的姿勢關鍵點,為每隻手和臉部推導出三個感興趣區域(ROI)裁剪,並採用 re-crop 模型來改進 ROI(詳情如下)。
然後,pipelines 將全解析度輸入幀上裁剪這些 ROI,並應用特定任務的模型來估計它們對應的關鍵點。最後,將所有關鍵點與姿勢模型的關鍵點合併,得出全部 540 多個關鍵點。
MediaPipe Holistic pipeline 概覽
MediaPipe Holistic 使用姿勢預測(在每一幀上)作為額外的 ROI 先驗,來減少對快速運動做出反應時 pipeline 的響應時間。使得模型能夠通過防止畫面中一個人的左右手或身體部位與另一個人的左右手或身體部位之間的混淆,來保持身體及其部位的語義一致性。
此外,姿勢模型的輸入幀解析度很低,由此產生的臉部和手部的 ROI 仍然不夠準確,無法指導這些區域的重裁,這就需要精確的輸入裁剪來保持輕量化。
為了彌補這一精度差距,作者使用輕量級的臉部和手部 re-crop 模型,這些模型扮演了 Spatial Transformers(空間變換器)的角色,並且只花費了相應模型 10% 左右的推理時間。
手部預測質量
Performance
MediaPipe Holistic 每一幀需要協調多達 8 個模型:1 個姿勢檢測器、1 個姿勢關鍵點模型、3 個 re-crop 模型和 3 個手部和面部的關鍵點模型。
在構建過程中,作者不僅優化了機器學習模型,還優化了前處理和後處理算法(例如,仿射變換),由於 pipelines 的複雜性,這些算法在大多數設備上都需要大量的時間。
這種情況下,將所有的前處理計算轉移到 GPU 上,根據設備的不同,整體 pipelines 速度提升了約 1.5 倍。
因此,即使在中端設備和瀏覽器中,MediaPipe Holistic 也能以接近實時的性能運行。
使用TFLite GPU在各種中端設備上的性能,以每秒幀數(FPS)衡量
由於 pipeline 的多級性,性能又多兩個優點。
因模型大多是獨立的,因此可以根據性能和精度要求,使用不同計算量和複雜度的模型。
另外,一旦推斷出姿勢,人們就能精確地知道手和臉是否在幀邊界內,從而使pipeline 可以跳過對這些身體部位的推斷。
Applications
MediaPipe Holistic,擁有 540 多個關鍵點,目的是為實現對身體語言、手勢和面部表情的整體、同步感知。它的融合方法可以實現遠程手勢界面,以及全身AR、運動分析和手語識別的功能。
為了展示 MediaPipe Holistic 的質量和性能,作者構建了一個簡單的遠程控制界面,該界面在瀏覽器中本地運行,無需滑鼠或鍵盤,就能實現令人注目的用戶交互。
用戶可以對屏幕上的物體進行操作,坐在沙發上用虛擬鍵盤打字,還可以指向或觸摸特定的面部區域(例如,靜音或關閉攝像頭)。在依靠精準的手部檢測與後續的手勢識別映射到固定在用戶肩部的 "觸控板 "空間之下,可實現 4 米範圍內的遠程控制。
當其他人機互動方式不方便的時候,這種手勢控制技術可以開啟各種新穎的使用場景。
可在該網站演示:https://mediapipe.dev/demo/holistic_remote/
瀏覽器非接觸式控制演示
Conclusion
作者希望 MediaPipe Holistic 可以激發更多研究人員可以構建出新的獨特應用。並期望這些 pipelines 為如手語識別、非接觸式控制界面或其他複雜的用例開闢新途徑。
開源地址:
https://github.com/google/mediapipe
https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html