...MediaPipe Holistic,實現移動端同時進行人臉、手部和人體關鍵...

2020-12-27 騰訊網

新智元報導

作者:Ivan Grishchenko & Valentin Bazarevsky

【新智元導讀】谷歌MediaPipe Holistic為突破性的 540 多個關鍵點(33 個姿勢、21 個手和468 個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能。

在行動裝置上對人體姿勢、人臉關鍵點和手部追蹤的實時同步感知,可以實現各種有趣的應用,如健身和運動分析、手勢控制和手語識別、增強現實效果等。

谷歌之前發布的MediaPipe就是一個專門為GPU或CPU而設計的開源框架,已經為這些單個任務提供了快速、準確而又獨立的解決方案。

但將它們實時組合成一個語義一致的端到端解決方案,仍是一個難題,需要多個依賴性神經網絡的同步推理。

不久前,谷歌發布了 MediaPipe Holistic,就是針對上述挑戰而提出一個解決方案,提出一個最新最先進的人體姿勢拓撲結構,可以解鎖新的應用。

MediaPipe Holistic 示例

MediaPipe Holistic 由一個新的 pipelines 組成,該 pipelines 具有優化的姿態、人臉和手部組件,每個組件都實時運行,儘量降低內存傳輸成本,並根據質量/速度的權衡,增加了對三個組件互換性的支持。

當包含所有三個組件時,MediaPipe Holistic 為突破性的 540 多個關鍵點(33 個姿勢、21 個手部和 468個人臉關鍵點)提供了統一的拓撲結構,並在行動裝置上實現了近乎實時的性能!

MediaPipe Holistic 作為 MediaPipe 的一部分,並在行動裝置(Android、iOS)和桌面設備上提供。還將引入 MediaPipe 新的即用型 API,用於研究(Python端)和網頁推理(JavaScript端),以方便更多人使用。

Pipeline and Quality

MediaPipe Holistic pipelines 集成了姿勢、面部和手部組件的獨立模型,每個組件都針對其特定領域進行了優化,每個組件的推斷輸入圖不同。

MediaPipe Holistic 首先通過 BlazePose 的姿勢檢測器和後續的關鍵點模型來估計人的姿勢。然後,利用推斷出的姿勢關鍵點,為每隻手和臉部推導出三個感興趣區域(ROI)裁剪,並採用 re-crop 模型來改進 ROI(詳情如下)。

然後,pipelines 將全解析度輸入幀上裁剪這些 ROI,並應用特定任務的模型來估計它們對應的關鍵點。最後,將所有關鍵點與姿勢模型的關鍵點合併,得出全部 540 多個關鍵點。

MediaPipe Holistic pipeline 概覽

MediaPipe Holistic 使用姿勢預測(在每一幀上)作為額外的 ROI 先驗,來減少對快速運動做出反應時 pipeline 的響應時間。使得模型能夠通過防止畫面中一個人的左右手或身體部位與另一個人的左右手或身體部位之間的混淆,來保持身體及其部位的語義一致性。

此外,姿勢模型的輸入幀解析度很低,由此產生的臉部和手部的 ROI 仍然不夠準確,無法指導這些區域的重裁,這就需要精確的輸入裁剪來保持輕量化。

為了彌補這一精度差距,作者使用輕量級的臉部和手部 re-crop 模型,這些模型扮演了 Spatial Transformers(空間變換器)的角色,並且只花費了相應模型 10% 左右的推理時間。

手部預測質量

Performance

MediaPipe Holistic 每一幀需要協調多達 8 個模型:1 個姿勢檢測器、1 個姿勢關鍵點模型、3 個 re-crop 模型和 3 個手部和面部的關鍵點模型。

在構建過程中,作者不僅優化了機器學習模型,還優化了前處理和後處理算法(例如,仿射變換),由於 pipelines 的複雜性,這些算法在大多數設備上都需要大量的時間。

這種情況下,將所有的前處理計算轉移到 GPU 上,根據設備的不同,整體 pipelines 速度提升了約 1.5 倍。

因此,即使在中端設備和瀏覽器中,MediaPipe Holistic 也能以接近實時的性能運行。

使用TFLite GPU在各種中端設備上的性能,以每秒幀數(FPS)衡量

由於 pipeline 的多級性,性能又多兩個優點。

因模型大多是獨立的,因此可以根據性能和精度要求,使用不同計算量和複雜度的模型。

另外,一旦推斷出姿勢,人們就能精確地知道手和臉是否在幀邊界內,從而使pipeline 可以跳過對這些身體部位的推斷。

Applications

MediaPipe Holistic,擁有 540 多個關鍵點,目的是為實現對身體語言、手勢和面部表情的整體、同步感知。它的融合方法可以實現遠程手勢界面,以及全身AR、運動分析和手語識別的功能。

為了展示 MediaPipe Holistic 的質量和性能,作者構建了一個簡單的遠程控制界面,該界面在瀏覽器中本地運行,無需滑鼠或鍵盤,就能實現令人注目的用戶交互。

用戶可以對屏幕上的物體進行操作,坐在沙發上用虛擬鍵盤打字,還可以指向或觸摸特定的面部區域(例如,靜音或關閉攝像頭)。在依靠精準的手部檢測與後續的手勢識別映射到固定在用戶肩部的 "觸控板 "空間之下,可實現 4 米範圍內的遠程控制。

當其他人機互動方式不方便的時候,這種手勢控制技術可以開啟各種新穎的使用場景。

可在該網站演示:https://mediapipe.dev/demo/holistic_remote/

瀏覽器非接觸式控制演示

Conclusion

作者希望 MediaPipe Holistic 可以激發更多研究人員可以構建出新的獨特應用。並期望這些 pipelines 為如手語識別、非接觸式控制界面或其他複雜的用例開闢新途徑。

開源地址:

https://github.com/google/mediapipe

https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html

相關焦點

  • 移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用
    具體而言,MediaPipe 是一個用於構建 pipeline 進而處理不同模態感知數據的跨平臺開源框架,Objectron 則在 MediaPipe 中實現,其能夠在行動裝置上實時計算目標的定向 3D 邊界框。從單個圖像進行 3D 目標檢測。MediaPipe 可以在移動端上實時確認目標對象的位置、方向以及大小。
  • 美圖影像實驗室(MTlab)10000 點人臉關鍵點技術全解讀
    人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。三維形變模型 (3DMM)1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉資料庫的基礎上,以人臉形狀和人臉紋理統計為約束,同時考慮了人臉的姿態和光照因素的影響,生成的人臉三維模型精度較高。
  • 優Tech分享|優圖3D人臉重建技術的研究與應用
    01 3D人臉重建技術應用廣泛,優圖推出可移動端實時的3DMM人臉重建技術 3D人臉重建技術是指從一張或多張2D圖像中恢復出人臉的3D形狀和紋理。
  • 算法推薦|在iOS14與Android11系統上,App開發如何實現人臉識別
    除了手機作業系統自帶的人臉解鎖,大量App也引入了人臉識別以進一步完善產品功能,譬如政務和金融類App會通過人臉識別進行用戶身份核驗,相冊管理App通過以此進行照片分類,攝影攝像類App則通過人臉檢測進行對焦和美顏……儘管手機上發生的人臉識別都在同一套硬體上運行,然而App並不能調用作業系統自帶的人臉識別功能,而是需要在開發中引入第三方算法。
  • 人體能否同時進行減脂和增肌?如果你能做到這兩點,是可以實現的
    能夠實現體脂重建很大程度上取決於你目前的健身習慣,首先來說,體脂重塑的概念其實並沒有那麼複雜,主要圍繞兩件事情展開:訓練和飲食。說起來就這麼簡單,但是真的實踐起來還是需要花點心思的。首先我們來說下訓練方面,在任何增肌目標中,抗阻訓練毫無疑問都是必須的,不管以何種形式進行的負重訓練都能夠刺激肌肉的增長。
  • 網紅直播時的瘦臉、磨皮等美顏功能是如何實現的?
    ,基於檢測出的106個關鍵點,我們需要對臉部關鍵點進行稠密化處理,插入額外的關鍵點,如額頭區域和臉部外圍限制區域,使其能夠覆蓋整個臉部區域;最後,基於稠密化以後的人臉關鍵點,對其構建整張臉的三角網格,實現對整個臉部區域的三角剖分(Delaunay Triangulation),三角剖分將人臉切分成多個無重疊的三角區域,進而可以使用openGL或者D3D進行繪製渲染處理
  • 全品AI平安校園雲平臺更新,支持手機端登記學生人臉和實時查寢!
    基於讓用戶使用體驗升級,近日,全品AI平安校園雲平臺又進行了功能更新優化,如班級學生人臉登記和實時查寢等功能,在手機端就能一鍵完成,讓教務管理、校園管理更輕鬆便捷!趕緊跟著全小品一起看看有哪些功能更新吧~5大功能優化1.可在手機端登記本班學生人臉照片2.可在手機端實時查看學生在寢狀態3.可對學生、教職工基本信息批量導出
  • 人臉識別技術實現方法全解析
    人臉識別,一種基於人的臉部特徵信息進行身份認證的生物特徵識別技術。近年來,隨著歐美發達國家人臉識別技術開始進入實用階段後,人臉識別迅速成為近年來全球的一個市場熱點。雖然人臉識別技術經常聽,但你知道它是如何實現的嗎?
  • 為僑服務移動端平臺「溫州政務通」上線指尖輕輕點 服務越重洋一...
    周秀蓉享受這項便捷服務,得益於溫州市政務服務局當日正式上線的為僑服務「全球通」移動端平臺——「溫州政務通」。作為該平臺的首位體驗者,1小時的辦證體驗讓周秀蓉與家人直呼「真方便」。溫州是著名的僑鄉。截至目前,該大廳可辦政務服務事項120個,已累計為在外溫州人辦理事項和答覆諮詢9600餘件,節約辦事成本約1.5億元,政務事項平均辦理時限壓縮至1天。此前,在外華僑通過當地僑團代表向「全球通」平臺服務人員預約辦理事項後,在約定時間前往海外服務點,在服務點志願者的陪同下與國內工作人員進行連線辦理事項。
  • 移動端網站設計:它是什麼及其重要性
    除非您最近幾年一直呆在家裡,否則您將知道移動端網站設計已成為許多企業的關鍵任務。您需要投資於新的網站建設和設計嗎?還是只是移動端網站的更新? 你甚至需要擔心嗎?---成都雲思禾網絡運營 浪知潮團隊多年來一直在設計適合行動裝置訪問的網站,我們很高興分享對移動所有事物的見解。讓我們從基礎開始:移動設計和常規Web設計有什麼區別,它對您的業務有何影響? 什麼是移動端網站設計?
  • UCloud優刻得推出人臉識別測溫平板和智能防疫一體機
    為此,UCloud優刻得結合自身在AIoT領域的技術優勢,與中車集團中城捷運合作推出了兩款疫情防控產品:人臉識別測溫平板和智能防疫一體機,可分別應用於不同場景。人臉識別測溫平板通過AI算法進行人臉識別和無接觸測溫;一體機在平板功能的基礎上,更增加了360度消毒功能。
  • OTT 及移動端的巨大潛力
    但無論是居家還是出行,移動端都是 OTT 領域的重要組成部分。eMarketer 發布的一份報告顯示,63% 的美國消費者最常用的 OTT 媒體設備是電視。移動端位居第二,佔 11.6%。然而我們發現,用戶在移動端訪問流媒體 OTT 內容的時長几乎佔總觀看時長的四分之一。也就是說,行動裝置用戶觀看 OTT 內容的時長高於平均值。
  • 騰訊優圖亮相PRCV2020,展示人臉分析最新研究與落地成果
    作為PRCV 2020特邀企業之一,騰訊優圖實驗室高級研究員在大會特邀企業論壇上發表了以《騰訊優圖實驗室近期人臉分析領域的研究與應用》主題的演講,與參會專家、學者和業界代表就優圖在人臉分析方向的研究與落地成果進行了交流、分享。
  • 掌紋識別與人臉識別有啥關聯
    同時,該系統已經在美國whole foods商超、Amazon Go便利店進行測試,在進入商店時顧客需要掃描手掌,結束購物時在配備掃描儀的收銀機上再次掃描手掌來結帳。亞馬遜在其試運行的便利店打出了「No Line, Just Walk Out」(無需排隊結帳)標語。 手掌識別實現無感支付 Amazon Go是由Amazon經營的美國便利店連鎖店。
  • 人臉融合-人像動漫畫-電腦端程序軟體
    PC端程序,純工具,無殼無毒,殺毒軟體可能會誤報,添加信任即可這是個電腦端的軟體,出自吾愛論壇
  • 匯刷刷臉支付—人臉識別閘機系統——校園場景應用
    隨著人臉技術的成熟,人臉識別算法也越來越深入人們的生活,在建設智慧校園的過程中,校園安全也是重中之重。保護好每一個孩子,使發生在他們身上的意外事故減少到最低限度,是我們大家的責任。由於各地學校的開放度高、人員雜、流動大、因而增加了校園安防工作的難度。
  • 主打「移動端遊」理念 《劍與魔法》新版上線
    逐幀調整 主打「移動端遊」概念《劍與魔法》從立項初期就以實現給用戶電腦遊戲般的體驗為目標。研發團隊藝術總監王帥講述了遊戲在製作初期為實現「移動端遊」概念,在遊戲中呈現出華麗效果、千人同屏、精緻角色等,對美術在設計思路和資源分配方面都有很大的挑戰,在場景方面「劍魔」美術前期做了多版測試來達到同頻資源和最終效果的平衡。
  • 小區人臉識別應用實測:有App明文上傳人臉照片及房產證
    南都人工智慧倫理課題組在會上發布了《移動端人臉識別應用合規報告》(以下簡稱「報告」),其中的技術測評由中國金融認證中心(CFCA)提供支持。四成應用隱私政策透明度較低 人臉信息共享不合規現象突出結合多個應用商店的下載量排名和網絡公開平臺的用戶投訴情況,南都人工智慧倫理課題組(以下簡稱「課題組」)選取了50款具有人臉識別功能的移動應用進行測評,涉及園區門禁、開戶銷戶、支付轉帳、商業零售、學校管理、政府辦事、換臉娛樂等七個類別。