登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品

2020-12-13 量子位

黑慄子 發自 凹非寺量子位 報導 | 公眾號 QbitAI

這是黑客帝國,尼奧和史密斯雨中打鬥的樣子。

而目標追蹤AI要在光照急劇變化、物體形狀大小也不斷改變的場景裡,準確鎖定尼奧的頭。

紅色是商湯最新算法SiamRPN++的表現,它中選了CVPR 2019的Oral。

藍色是它的對手,來自ECCV 2018的優秀前輩UPDT。自古紅藍出CP。

動作太快,看不出紅藍誰更強?有截圖啊:

肉眼看去,商湯SiamRPN++更勝一籌,幾乎不受複雜場景的影響。

不止如此,它已經在多個數據集上成為了State-of-the-Art。

同時也成了商湯Siam家族的驕傲。現在,整個家族都開源了:

· SiamMask (CVPR 2019)· SiamRPN++ (CVPR 2019 oral)· DaSiamRPN (ECCV 2018)· SiamRPN (CVPR 2018)· SiamFC (ECCV 2016)

但這到底是一個怎樣的家族?

顯赫之家

Siam是Siamese的縮略,所以整個家族都是孿生網絡。

所謂孿生,就是兩個網絡的所有權重都一樣。

給它們輸入不同的數據,便可以測量兩個輸入的相似度,做分類之用。

經年累月,團隊死磕孿生網絡,用這類算法來做目標跟蹤。

在這之中,SiamRPN赫然挺立,中選了CVPR 2018的Spotlight。

SiamRPN:把檢測算法引入跟蹤

這隻AI的誕生,是因為團隊發現:雖然孿生網絡能對目標快速定位,但不能對目標框作出調整,也就不能調節目標的形狀。

可目標跟蹤並不是只要定一個點,目標所在的範圍也同樣重要。

於是,團隊為孿生網絡引入了區域推薦網絡 (RPN) 。

孿生網絡可以實現對目標的適應,利用被跟蹤目標的信息,完成檢測器的初始化;而RPN可以讓算法對目標位置 (範圍) 做出更精準的預測。

兩者結合,就有了可以端到端訓練的SiamRPN。除了算法上的創新之外,由於支持端到端訓練, (在VID之外) 大規模數據集Youtube-BB也成了它的訓練集,進一步提升性能。

於是,在OTB100、VOT15/16/17數據集上,SiamRPN都比基線算法SiamFC高出了5%以上,速度也更快。它被CVPR 2018選作了Spotlight。

DaSiamRPN:改進訓練集,增強判別能力

雖然,SiamRPN取得了好成績,但它是用VID和Youtube-BB訓練的:裡面的類別非常少,大概二三十類,很難勝任現實任務。

而COCO和ImageNet DET的檢測數據集,分別有80類和200類。且孿生網絡的訓練只需要圖像對,不用完整的視頻,所以輕鬆就把這些數據集引入了。

可引入之後又有新問題:這個網絡會對所有有語義的樣本進行響應,不只對目標物體有響應。比如目標是一個人,而AI遇到一把椅子也有很高的響應。

因為之前的訓練中,負樣本 (和目標無關的樣本) 只有背景信息,限制了網絡的判別能力。

於是,團隊改進了方法——增加一些有語意的負樣本對,來增強跟蹤器的判別能力。

這就是說,訓練過程中不再讓模板 (Template) 和搜索區域 (Search Region) 是相同目標;是讓網絡學習判別能力,去搜索區域裡找模版更相似的物體,而不是一個簡單的有語義的物體。

做了這樣的改動,DaSiamRPN可以從短時跟蹤拓展到長時跟蹤,且在UAV20L數據集上比之前成績最好的方法提高了6%。

DaSiamRPN被ECCV 2018收錄,且在VOT workshop比賽上,獲得了實時賽的冠軍,比上年冠軍提升了80%。

SiamRPN++:讓孿生網絡用上深度架構

算法也改過了,訓練集也改過了。

所以,團隊這一次瞄準了還沒改過的孿生網絡本身。

之前的孿生網絡,都是基於比較淺的卷積網絡(比如AlexNet) 。但如果直接引入深度網絡,性能反而會大幅下降。

想有效利用深網絡,就要解決位置偏見的問題。於是,研究人員提出了「位置均衡的採樣策略」:

不把正樣本放在中心,而是以均勻分布的採樣方式,讓目標在中心點附近進行偏移。

隨著偏移範圍增大,深度網絡慢慢開始發揮作用。不止可以跟蹤更多細節信息 (淺層網絡特徵) ,也能跟蹤更多語義信息 (深層網絡特徵) 。多層融合信息,來進一步提升性能。

除此之外,團隊還提出了新的連接部件,Depthwise Cross Correlation (下圖c) 。它可以極大減少參數量,平衡兩支的參數量,同時讓訓練更加穩定,也更好地收斂。

結果,SiamRPN++在5個大型跟蹤數據集上,都拿到了最好成績:OTB2015,VOT2018,UAV123,LaSOT,以及TrackingNet。

突破了孿生網絡和深度架構之間的障礙,這隻AI順理成章地中選了CVPR 2019的Oral。

大規模開源

這些孿生網絡,現在都開源了。

商湯發布了一個叫做PySOT的目標跟蹤庫,基於PyTorch,把整個Siam家族裝了進去。回顧一下,包括這些模型:

· SiamMask (CVPR 2019)· SiamRPN++ (CVPR 2019 oral)· DaSiamRPN (ECCV 2018)· SiamRPN (CVPR 2018)· SiamFC (ECCV 2016)

PySOT庫提供了3種不同的backbone,有深有淺:

· ResNet{18, 34, 50}· MobileNetV2· AlexNet

模型評估,目前支持這些數據集:

· OTB2015· VOT16/18/19· VOT18-LT· LaSOT· UAV123

PySOT裡面,還包含了評估工具的接口。

所以,大家可以盡情探索了。

PySOT傳送門:

https://github.com/STVIR/pysot

SiamRPN論文傳送門:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

DaSiamRPN論文傳送門:

https://arxiv.org/abs/1808.06048

SiamRPN++論文傳送門:

https://arxiv.org/abs/1812.11703

相關焦點

  • 目標跟蹤最強算法開源:商湯SiamRPN系列解讀
    雷鋒網(公眾號:雷鋒網) AI 科技評論消息,日前,商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將獨家解讀目標跟蹤最強算法 SiamRPN 系列。
  • 挑戰目標跟蹤算法極限,商湯開源SiamRPN系列算法解讀
    商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將解讀目標跟蹤最強算法 SiamRPN 系列。
  • 商湯開源最大目標跟蹤庫PySOT,代碼已正式上線!
    商湯開源最大目標跟蹤庫PySOT:含SiamRPN++和SiamMask等算法,介紹了來自商湯科技的STVIR(SenseTime Video Intelligence Research team)開源的目標跟蹤庫:PySOT。當時PySOT並沒有上傳代碼,所以之前的文章僅介紹了新特性,但得到大家廣泛關注。
  • 單目標跟蹤論文綜述:SiamFC、Siam系列和GradNet
    關於單目標跟蹤本人不了解傳統的相關濾波法,所有想法總結僅僅建立在深度學習的基礎上。對於單目標跟蹤而言一般的解釋都是在第一幀給出待跟蹤的目標,在後續幀中,tracker能夠自動找到目標並用bbox標出。關於SOT(single object track),有兩條思路。第一種,我們可以把跟蹤粗暴地當做一個配對問題,即把第一幀的目標當做模板,去匹配其他幀。
  • 單目標跟蹤算法:Siamese RPN論文解讀和代碼解析
    1.前言深度學習【目標追蹤】專欄寫過一篇對Siamese FC網絡的解析。接著Siamese網絡在單目標追蹤任務(SOT)上的應用,我們展開對Siamese RPN的論文解讀和代碼解析。提到RPN層,了解雙階段法目標檢測模型(FasterRCNN)的各位必定不會陌生。
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺
    該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。GitHub 地址:https://github.com/open-mmlab/mmtrackingMMTracking 效果展示。據介紹,MMTracking 具備以下主要特性:1.
  • GitHub 標星 20000+,國產 AI 開源從算法開始突破|專訪商湯聯合...
    從2018年開始,奔著「開源、統一、可復現」的目標,商湯開始建設人工智慧算法的開源體系。當時,商湯聯合創始人林達華教授則主導發起了OpenMMLab項目,今年商湯將其升級為商湯的算法開放體系。林達華:商湯有底層的超算平臺,有自主研發的深度學習框架,也有上層的各種算法和應用平臺,這些是商湯自主研發和原創積累下來的技術體系。為了響應國家的號召和社會的期待,各個 AI 企業都開始有自己的開源戰略,商湯也有自己的思考,我們理解開源的一個最重要的目的就是要能夠為科研和產業服務的開放技術生態。
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知...
    首個開源一體化視頻目標感知平臺對視頻內的目標進行感知識別一直是學界、業界都非常關心的問題。這個問題在學界常被細分為不同的子問題,比如視頻目標檢測、多目標跟蹤與單目標跟蹤。具體來說,視頻目標檢測只需對視頻內的每一幀進行檢測,不要求對不同幀中的同一目標進行關聯。
  • 2017目標跟蹤算法綜述
    2017目標跟蹤算法綜述本文所提的跟蹤主要指的是單目標跟蹤,多目標跟蹤暫時不作為考慮範圍。
  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    在ICCV 2019 COCO比賽中,來自香港中文大學-商湯科技聯合實驗室和南洋理工大學-商湯科技聯合實驗室的MMDet團隊獲得目標檢測(Object Detection)冠軍(不使用外部數據集),這也是商湯連續兩屆在COCO Detection項目中奪冠。同時,商湯科技新加坡研究團隊也獲得COCO全景分割(Panoptic)冠軍(不使用外部數據集)。
  • CVPR 2019:中科院、牛津等提出SiamMask網絡,視頻跟蹤最高精度
    【新智元導讀】今年CVPR有一篇亮眼的視覺跟蹤方面的論文,作者提出新算法SiamMask,在視頻跟蹤任務上達到最優性能,並且在視頻目標分割上取得了當前最快的速度。作者來自中科院自動化所、牛津大學等,本文帶來一作自動化所王強的解讀。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    此次比賽的EDVR算法代碼已開源(https://github.com/xinntao/EDVR)。另外,商湯科技還在AI CITY Challenge(CVPR 2019 Workshop)異常檢測賽道中獲得冠軍。
  • 【綜述專欄】多目標跟蹤(MOT)入門
    01這些是我所了解的多目標跟蹤(MOT)的一些相關方向。其中單目標跟蹤(VOT/SOT)、目標檢測(detection)、行人重識別(Re-ID)都是非常熱門的方向。但是,多目標追蹤的研究重點又在相似度計算和數據關聯這一塊。所以就有一個很大的問題:你設計出更好的關聯算法可能就提升了0.1個點,但別人用一些針對數據集的trick消除了一些漏檢可能就能漲好幾個點。所以研究更好的數據關聯的回報收益很低。
  • 目標跟蹤論文筆記:Deeper Wider Siamese Tracker(CVPR2019)
    Deeper and Wider Siamese Networks for Real-Time Visual Tracking本文來自微軟研究院和中科院王強團隊出品,研究方向是實時目標跟蹤算法,已經被CVPR2019收錄,單目標的跟蹤算法現在基本都是基於Siamese框架,本文的重點其實在於對Siamese框架的跟蹤算法進行了比較系統的分析
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    CVPR 作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在 2018 年最新和最高的科技水平以及未來發展潮流。CVPR 官網顯示,今年有超過 3300 篇的大會論文投稿,錄取的 979 篇論文,比去年增長了 25%(2017 年論文錄取 783 篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。
  • 深度學習在目標跟蹤中的應用
    過去幾十年以來,目標跟蹤的研究取得了長足的發展,尤其是各種機器學習算法被引入以來,目標跟蹤算法呈現百花齊放的態勢。2013年以來,深度學習方法開始在目標跟蹤領域展露頭腳,並逐漸在性能上超越傳統方法,取得巨大的突破。本文首先簡要介紹主流的傳統目標跟蹤方法,之後對基於深度學習的目標跟蹤算法進行介紹,最後對深度學習在目標跟蹤領域的應用進行總結和展望。
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 一周論文精選(1)谷歌 AutoDropout | Facebook 用Transformer多目標跟蹤/弱監督MOT等
    本文提出了 學習Dropout的模式 ,控制器在目標網絡(如ConvNet或Transformer)的每個通道和層學習dropout的模式,性能提明顯。代碼即將開源。引入了跟蹤查詢embeddings,它以自回歸的方式跟蹤視頻序列中的目標。新的跟蹤查詢由DETR目標檢測器產生,並且隨著時間的推移嵌入其相應目標的位置。Transformer解碼器逐幀調整軌道查詢嵌入,從而跟蹤改變的目標位置。TrackFormer通過同時考慮位置、遮擋和目標身份的自我和編解碼器注意機制,在一種新的注意力跟蹤範例中實現了幀之間的無縫數據關聯。
  • 機器學習的五大頂級開源工具
    這些開原始碼不僅可以培養很多這方面的人才,同時也有助於社區的發展。在機器學習的開源領域,Google無疑是巨頭,TensorFlow在眾多方面都擊敗了其他競爭者。  機器學習會帶來真正的革命,它的科學進步不屬於任何一家公司,而屬於全球。機器學習的開放也意味著每個人都可以參與到這場革命中。
  • Github累積1.6萬顆星,這家AI公司的開源項目有望讓程式設計師少加班
    OpenMMLab 是商湯科技開源的一個計算機視覺領域的 AI 算法框架。自 2018 年 10 月逐步開源以來,OpenMMLab 在軟體原始碼託管服務平臺 Github 上共累積了 1.6 萬個星。開發 OpenMMLab 對於商湯來說意味著什麼?商湯對於未來 OpenMMLab 又會有怎樣的發展計劃?