谷歌詳細介紹MediaPipe對象檢測與追蹤系統

2021-01-20 映維網Nweon

查看引用/信息源請點擊:映維網

如何與Object Detection結合併提供一個對象檢測與追蹤系統

映維網 2019年12月11日)MediaPipe是用於構建跨平臺多模態應用ML管道的框架,其包括快速ML推理,經典計算機視覺和媒體內容處理(如視頻解碼)。在2019年6月舉行的CVPR大會,MeidaPipe正式開源,版本是v0.5.0。自那以後,谷歌陸續發布了一系列的ML管道示例。

日前,谷歌撰文介紹了又一個MediaPipe示例:Object Detection and Tracking。谷歌首次描述了新發布的Box Tracking解決方案,並解釋了它是如何與Object Detection結合併提供一個對象檢測與追蹤系統。

Box Tracking in MediaPipe

MediaPipe v0.6.7.1帶來了一種Box Tracking解決方案,而後者多年來一直驅動著Motion Stills,YouTube隱私模糊,以及Google Lens的實時追蹤功能,並且它是利用經典的計算機視覺方法。結合追蹤與ML推理可產生有價值且有效的管道。所以,谷歌將Object Detection和Box Tracking結合在了一起,並創建了一個對象檢測與追蹤管道。與每幀運行檢測相比,支持追蹤的管道存在多個優點:

提供了基於實例的追蹤,即對象ID能夠在多幀中維持。

檢測並不一定需要每幀運行。這樣可以運行負載更高但更為精確的檢測模型,同時為行動裝置保持管道輕巧和實時。

在追蹤的幫助下,對象定位在時間方面保持一致,這意味著在整個幀中注意到的抖動較小。


谷歌的通用Box Tracking解決方案利用了視頻或攝像頭饋送流中的圖像幀,為方框位置提供時間戳,說明要追蹤的2D目標區域,然後計算每幀需要追蹤的方框位置。在這個特定的用例中,方框的起始位置來自於對象檢測,但起始位置同時可以由用戶或其他系統手動提供。谷歌的解決方案包含三個主要組件:運動分析組件,流打包組件,以及方框追蹤組件。每個組件都封裝成MediaPipe計算器,並且Box Tracking解決方案整體表示為一個MediaPipe子圖,如下所示:

MediaPipe Box Tracking子圖

MotionAnalysis計算器提取整個圖像的特徵(如高梯度角),隨時間推移追蹤所述特徵,將其分類為前景特徵和背景特徵,並估計局部運動矢量和全局運動模型。FlowPackager計算器將估計的運動元數據打包為有效格式。BoxTracker計算器從FlowPackager計算器獲取所述運動元數據和起始方框的位置,並隨時間追蹤方框。BoxTracker計算器僅使用由MotionAnalysis計算器生成的運動數據(不需要RGB幀)來追蹤單個對象或區域,同時區分其他對象或區域進。

為了追蹤輸入區域,谷歌首先利用了與所述區域相對應的運動數據,然後採用迭代重加權最小二乘法(Iteratively Reweighted Least Aquares;IRLS)將參數模型擬合到所述區域的加權運動向量。每個區域都存在一個跟追蹤態,包括平均速度,一組正常特徵與離群特徵ID,以及區域質心等等。追蹤狀態的可視化請參見下圖,綠色箭頭是正常值的運動矢量,紅色箭頭是離群值的運動矢量。請注意,由於每個特徵的色塊強度隨時間推移大致保持恆定,所以僅依靠特徵ID即可隱式捕獲所述區域的外觀。另外,通過將區域的運動分解為camera運動和單個對象運動,你甚至可以追蹤無特徵區域。

每個方框的追蹤狀態可視化

這一架構的優勢在於,通過將運動分析分拆到專用的MediaPipe計算器,並追蹤整個圖像的特徵,谷歌可以實現極大的靈活性和恆定的計算能力,而且不受所追蹤區域的數量限制。由於在追蹤過程中不必依賴RGB幀,所述解決方案提供了在一批幀中緩存元數據的靈活性。通過緩存,你可以及時地追蹤區域的向前和向後移動;甚至直接同步到指定的時間戳,從而實現隨機訪問追蹤。

Object Detection and Tracking

下面是用於對象檢測與追蹤的MediaPipe示例圖,它由4個計算節點組成:PacketResampler計算器;先前發布的ObjectDetection子圖;圍繞上述BoxTrakcing子圖的ObjectTracking子圖;以及繪製可視化效果的Renderer子圖。

用於對象檢測與追蹤的 MediaPipe示例圖。紫色方框是子圖。

通常來說,ObjectDetection子圖僅在請求時運行,例如以任意幀速率或由特定信號觸發。更具體地講,在將視頻幀傳遞到ObjectDetection之前,本示例中的PacketResampler將它們暫時採樣為0.5 fps。你可以在PacketResampler中將這一選項配置為不同的幀速率。

ObjectTracking子圖在每個傳入幀實時運行以追蹤檢測到的對象。它能夠利用額外的功能來擴展上述的BoxTracking子圖:當新檢測到達時,它將使用IoU(Intersection over Union;交並比)將當前追蹤的對象/方框與新檢測相關聯,從而刪除過時或重複的方框。

下面是這個對象檢測與追蹤示例的結果。左圖是每幀運行對象檢測的結果。右圖是運行對象檢測與追蹤的結果。注意,後邊的結果更加穩定,時間抖動更少,而且可以跨幀維護對象ID。

每幀運行對象檢測和對象檢測與追蹤的對比

---
原文連結:https://yivian.com/news/69794.html


Long-press QR code to transfer me a reward

帥哥美女都喜歡打賞好文章!

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • MediaPipe Holistic谷歌發布面部,手部與姿勢同時檢測模型
    我們還將介紹MediaPipe的新的現成的研究API()和Web(),以簡化對該技術的訪問。  管道和質量MediaPipe Holistic管道集成了用於姿勢,面部和手部組件的單獨模型,每種模型都針對其特定領域進行了優化。但是,由於它們的專業不同,因此對一個組件的輸入不適合其他組件。例如,姿勢估計模型採用較低的固定解析度視頻幀(256x256)作為輸入。
  • 谷歌AR新研究:只需陀螺儀的即時運動追蹤
    今天,谷歌正式為安卓版Motion Stills帶來了AR模式。藉助這一最新的AR模式,用戶只需輕觸取景器即可在靜態或移動水平表面(例如桌子和地板等等)上放置有趣的虛擬3D對象放置有趣的虛擬3D對象,使其能夠與動態的真實世界環境無縫對接。你同時可以錄製並分享為GIF和視頻格式。
  • 關於PIPE505恢復聽力毛細胞的介紹
    加利福尼亞州舊金山UCSF介紹由非選擇性毒蕈鹼拮抗劑(例如克司他丁、苯妥英)對毒蕈鹼乙醯膽鹼能受體的抑制加速了少突膠質細胞前體細胞向少突膠質細胞的分化。隨後的工作表明M1亞型是這種現象的關鍵驅動力。內部化學努力已經確定了許多有效的、選擇性的M1拮抗劑。
  • 谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
    目前,Google 已經將該項目開源,並且發布了相關博客介紹了這項技術,雷鋒網 AI 開發者將其內容整理編譯如下。其次,我們將適用於更大場景上下文感知中的編碼器—解碼器特徵提取器用於手部感知這樣的小對象中(類似於 RetinaNet 辦法,https://arxiv.org/abs/1612.03144)。最後,我們將訓練期間的焦損降至最低,從而支持由於高度變化而產生的大量錨點。
  • 谷歌推出手機用戶位置追蹤服務
    通過升級移動地圖服務而推出的這個「Google Latitude(谷歌緯度)」軟體,谷歌公司希望證明自己在個人行蹤定位方面的能力和其網際網路信息搜索能力一樣強大。 藉助這項新功能,谷歌希望幫助人們隨時掌握家人的位置,當然也有助於情侶們發現自己的另一半是否忠誠。
  • ASME規範中tube和pipe的解釋
    在一段時期應用與消化之後,對這個標準的理解也逐漸深入,對其中某些翻譯名詞的困難,也逐漸溶化,比如tube和pipe的認識也逐漸加深。Tube和pipe在中文裡都是「管子」或「管道」的意思,無法區分,而ASME規範卻有不同的要求。
  • 2020谷歌開發者大會:AR軟體工程總監介紹ARCore最新動態
    Google 開發者大會 (Google Developer Summit) 是谷歌面向開發者展示最新產品和平臺的年度盛會。2020 Google 開發者大會於 11 月 16 日 至 21 日舉行,這是谷歌首次以全線上大會的形式與中國開發者相聚。
  • 蘋果谷歌兩大科技劇透首次攜手抗疫,利用手機App追蹤疫情
    蘋果和谷歌將使用藍牙技術來追蹤手機的位置,藍牙將能提供比蜂窩信號和GPS更精確的定位。許多政府組織、科研機構和NGO已經在開發使用者預授權的蹤跡追蹤技術。 蘋果和谷歌將使用藍牙技術來追蹤手機的位置,藍牙將能提供比蜂窩信號和GPS更精確的定位。
  • 在pandas中使用pipe()提升代碼可讀性
    而在以前我撰寫的一些文章中,為大家介紹過pandas中的eval()和query()這兩個幫助我們鏈式書寫代碼,搭建數據分析工作流的實用API,再加上下面要介紹的pipe(),我們就可以將任意pandas代碼完美組織成流水線形式。2.
  • 利用機器學習,進行人手的21個3D手關節坐標檢測
    21個3D手關節坐標  importcv2importmediapipeasmpmp_drawing=mp.solutions.drawing_utilsmp_hands=mp.solutions.handsdrawing_spec
  • 谷歌蘋果罕見聯手推抗疫神器:兩大手機系統互通 不收集定位數據
    為此,蘋果和谷歌將聯手,打通IOS和安卓手機系統,推出追蹤確診病患密切接觸者的手機基礎功能。 當地時間4月10日,蘋果CEO庫克與谷歌CEO皮蔡在Twitter上罕見地互相@對方,宣布兩家公司將利用藍牙技術幫助政府和公共衛生機構減緩疫情蔓延。同時,雙方都強調,他們的系統可以保護用戶的隱私——需要用戶同意,且不會收集定位數據。
  • 金屬材料檢測對象金屬材料晶體的詳細介紹
    金屬材料檢測中「力學性能試驗」的對象——金屬與合金的晶體結構。什麼是晶體?固體物質,根據原子在內部的排列特徵可分為晶體和非晶體兩大類。原子按一定的幾何形式周期性地重複排列而成的固態物質稱之為晶體,原子無規則地堆積在一起的固態物質稱為非晶體。
  • 紅外熱像儀應用於高爐冷卻壁檢測
    但冷卻壁可能會因為水冷系統的堵塞失去冷卻作用,直接影響高爐爐體的使用壽命和生產安全。因此對冷卻壁的溫度進行檢測,保證其正常工作是十分有必要的。傳統的檢測方法是採用的方法是控制進水溫度和控制進出水溫度差。
  • 光線追蹤技術的理論和實踐(面向對象)
    介紹本文引用地址:http://www.eepw.com.cn/article/164673.htm這篇文章將介紹光線追蹤技術。在計算機圖形領域中,這種技術被普遍應用於生成高質量的照片級圖像。在為一個場景計算光照的時候,通過固定圖形渲染管線可以計算phong光照模型,由於該模型的特徵,使得渲染的物體看起來有塑料的質感。
  • 中國知網官方碩博論文檢測平臺詳細介紹
    下面,小編給大家分享一篇中國知網官方碩博論文檢測平臺介紹,大家能更全面的了解它。一、碩博中國知網查重系統介紹知網檢測VIP是中國知網官網最新版本,專門用於檢測高校碩博畢業論文,在論文資料庫和論文檢測技術方法都有了很大的更新,首先知網查重VIP較原本的舊知網查重系統新增了知網原始碼庫,對於很多計算機專業高校畢業生進行論文代碼是有影響的,知網檢測VIP系統收錄了大量的英文資料庫涵蓋期刊
  • ASME規範中tube和pipe定義的解釋
    在一段時期應用與消化之後,對這個標準的理解也逐漸深入,對其中某些翻譯名詞的困難,也逐漸溶化,比如tube和pipe的認識也逐漸加深。Tube和pipe在中文裡都是「管子」或「管道」的意思,無法區分,而ASME規範卻有不同的要求。
  • windows系統安裝方法詳細介紹
    這一個時候,能夠很好的解決的辦法就是重裝系統了。不過,有很多的小夥伴都不知道應該怎麼重裝系統。接下來小編就給各位玩家小夥伴詳細的講解一下windows系統安裝方法詳細介紹,一起來看看吧。這一個時候,能夠很好的解決的辦法就是重裝系統了。不過,有很多的小夥伴都不知道應該怎麼重裝系統。接下來小編就給各位玩家小夥伴詳細的講解一下windows系統安裝方法詳細介紹,一起來看看吧。
  • 「不作惡」的谷歌追蹤用戶位置,即使關閉了位置記錄功能
    谷歌一直以來把不作惡「Do not be evil」作為公司的理念,實際上,谷歌真的不作惡嗎?我想大家都知道幾年的「稜鏡門」門吧,根據斯諾登披露的文件包括微軟、谷歌、蘋果等在內的9家美國巨頭都參與其中,所以說谷歌不作惡,那是偽命題。
  • 谷歌更新開發者政策要求應用申請後臺獲取定位必須詳細解釋使用原因
    在軟體程序請求用戶詳細定位信息方面向來爭議都比較大,因為多數軟體壓根不需要獲得定位信息就能提供服務。而收集定位信息多半是用來跟蹤用戶並推送精準廣告的,對於消費者來說這會導致自己的潛在信息被開發商收集。更可惡的是有許多應用程式如果不授予相關權限例如定位信息就拒絕用戶使用,這也逼迫用戶必須授予相關權限。
  • 最新版中國知網VIP論文檢測系統介紹
    下面小編給大家詳細解讀最新版中國知網VIP論文檢測系統介紹內容!最後值得特別說明的是最新知網VIP檢測系統新增資料庫範圍還有「學術論文聯合比對庫」二、知網VIP和知網其它系統區別此檢測系統是最新學術不端文獻檢測系統5.3(習慣叫做知網VIP),是全國高校普遍用來檢測碩士博士畢業論文的檢測系統,同時也是核心期刊的首選檢測系統。它也就是知網最高級版本,檢測精度最高!最嚴格!上傳字數限制30萬一次,碩士5萬字內博士10萬字內為佳。