ICCV 2017 spotlight論文解讀:如何提高行人再識別的準確率

2021-01-15 雷鋒網

雷鋒網 AI科技評論按,本文作者孫奕帆,本文首發於知乎專欄行人重識別,雷鋒網(公眾號:雷鋒網) AI科技評論獲其授權轉載。

文章連結: arXiv:1703.05693(https://arxiv.org/abs/1703.05693)

代碼連結:syfafterzy/SVDNet-for-Pedestrian-Retrieval(https://github.com/syfafterzy/SVDNet-for-Pedestrian-Retrieval)

一、背景簡介

近年來,行人再識別問題(Person-reID)研究熱度逐漸上升。與人臉識別相比,它在採集圖像時不需要行人主動配合,在安防等領域具有極大的應用潛力。基於深度學習的行人再識別方法,在近幾年快速進步,在絕大部分公開數據集上,深度學習特徵均超過了手工設計特徵。這篇文章的工作主要圍繞利用如何更好地學習的深度特徵,提高行人再識別的準確率進行。然而,這篇文章實際上沒有具體針對行人再識別的特有問題進行分析、優化,筆者認為該方法在小數據集問題上,該方法具有一般性意義,並且,該方法對CNN特徵的物理意義開展了一些有趣的思考。

二、Motivation

首先需要說明的是,SVDNet基於這樣一個對CNN權向量的簡單解讀:假設CNN的一層網絡,其輸入是I,輸出是O,權矩陣是W,那麼O=W'*I運算是在做線性投影,而W中所含的權向量則是一組投影基向量。當訓練一個用於提取re-ID問題中行人特徵的深度卷積神經網絡(CNN)時,與在其它所有典型的深度學習訓練一樣,通常所學到的權向量是「雜亂無章」的,這種雜亂無章體現在,網絡同一層中的權向量,通常是存在較強的相關性(注意不是線性相關linear dependent)。這種相關性,對於特徵表達可能會造成不必要甚至是非常有害的冗餘。例如下圖中,假設網絡用於提取特徵的特徵層含有3個權向量,紅色和粉色所代表的的權向量幾何上更靠近,而藍色的權向量相對較遠,那麼,當一個行人圖像進入網絡中後,它會最終投影到這3個權向量上,形成一個3維的特徵,而在紅色和粉色上的投影結果將會非常接近。這就使得,在藍色上的投影結果相較之下無足輕重了,很有可能造成一些誤判。

<img src="https://static.leiphone.com/uploads/new/article/pic/201709/1b262e77f2d204f8f3c0a757e589279f.png" data-rawwidth="1120" data-rawheight="686" class="origin_image zh-lightbox-thumb" width="1120" data-original="https://pic4.zhimg.com/v2-5f660c8848d47e20ee58726ecf88828b_r.png" _src="https://static.leiphone.com/uploads/new/article/pic/201709/1b262e77f2d204f8f3c0a757e589279f.png"/>

因此,我們希望對於特徵表達層(該層的輸出作為行人圖像的特徵),它的權向量是正交的。這裡說遠一點關於深度學習中的正交約束。其實,正交約束在深度學習中近幾年並不少見。例如ICLR2016年的Reducing Overfitting in Deep Networks by Decorrelating Representations(arXiv:1511.06068),以及同樣ICCV2017年的一篇工作arXiv:1511.06068。此外,諸如whitened network,以及ICML2017年的generalized whitened network,也都可以認為利用了正交化在深度學習種可能帶來的好處。不過,值得注意的是,這些工作都是讓把feature不同維度的值當成一個變量,希望不同維度上的變量是相互獨立的。而SVDNet這篇工作避開了這個做法,希望權向量是正交的。在paper中,出於嚴謹的考慮,沒有解釋這兩種做法的差異。筆者認為,這樣做實際上是有巧妙意義的。受限於深度學習的訓練方式,對特徵施加正交約束時,只能在一個minibatch裡去求feature的協方差矩陣,並要求該矩陣是對角陣,這種做法本身是無奈之舉。而SVDNet這種做法避開了這個困難,它其實藉助了這樣一個思想:每一個權向量,都是相應特徵相應維度上的模板(exemplar)或者代理(agent)。這種解讀在最近的很多工作中都有所體現。

三、訓練方法RRI

——如何在CNN訓練中,對權向量施加正交約束

先說怎麼做的,後面再解釋為什麼這麼做。

做法非常簡單,分為3步,稱之為Restraint and Relaxation Iteration (RRI):

1、去相關——每次訓練模型收斂之後,對特徵表達層的權矩陣W進行奇異值分解,即W=USV',然後,用US去取代原來的W,這時,W變成了一個正交陣(每個權向量彼此正交),且新的權向量是原來權矩陣WW'的本徵向量。經過這樣一次去相關之後,原本已經收斂的模型偏離原先的局部最優解、在訓練集上的分類損失變大了。

2、緊張訓練(Restraint)——固定住步驟1中的W不更新,學習其它層參數,直至網絡重新收斂。需要注意的是,在這種情況下,網絡會收斂到一個次優解:因為它有一層的W是受限制。因此,在接下來,我們會取消這個限制,繼續訓練。

3、鬆弛訓練(Relaxation)——在步驟2之後,取消W固定的限制,這個時候,網絡會發現對於擬合訓練樣本會這個目標會有一個更好的解:請注意,僅僅是針對擬合訓練樣本這個目標。我們實驗發現,這個模型使用在訓練集上(包含全新的ID)時,它的泛化能力是相對較弱的。

而在步驟3之後,W裡的權向量重新變的相關起來。因此,我們把這3步迭代起來,形成RRI,直最終收斂。

四、RRI中發生了什麼?

在RRI中,每個Restraint階段後,權向量被去相關了、W變成了正交矩陣、ReID的準確度提升了;而在每個Relaxation階段後,權向量重新相關起來,ReID的準確度停滯甚至略微降低(相較於上一個Restraint)。但是,比較Relaxation階段,我們可以發現,W正交度S(W)在提升,而Reid的準確度也在提升,直到二者幾乎同時達到了收斂狀態。見下圖:

<img src="https://static.leiphone.com/uploads/new/article/pic/201709/51e53b7133c01caab306560c44b0484e.png" data-rawwidth="1480" data-rawheight="474" class="origin_image zh-lightbox-thumb" width="1480" data-original="https://pic4.zhimg.com/v2-473229abaaec41f97630f1e5e88400d7_r.png" _src="https://static.leiphone.com/uploads/new/article/pic/201709/51e53b7133c01caab306560c44b0484e.png"/>

上圖是本文最重要、最有趣的一張圖,它對SVDNet這個方法的原理起到了一種「知其然、知其所以然「意義上的證明。圖中S(W)——用來衡量W正交度的變量定義本文不再敘述,非常簡單直觀,關心的同學可以去查看論文。有趣的地方在於:緊張訓練階段,reID性能提升;而放鬆訓練階段,reID性能降低。這似乎與我們人類的學習規律類似:提倡張弛結合,緊張時進步,而交替地放鬆,是為了積累。

五、性能

SVDNet 方法的性能,在2017年初接近當時的state of the art。而且,為了方法的純粹性,SVDNet沒有採用除了「鏡像」之外的任何圖像增強,輸入圖像也是採用baseline模型的默認尺寸。具體性能比較見論文,這裡僅展示一下在market-1501數據集上的對比。

<img src="https://static.leiphone.com/uploads/new/article/pic/201709/113c089463cbffa412e0e66b50bbaf5d.png" data-rawwidth="785" data-rawheight="611" class="origin_image zh-lightbox-thumb" width="785" data-original="https://pic2.zhimg.com/v2-8e36302acabd75ebf3ce48ce7a043885_r.png" _src="https://static.leiphone.com/uploads/new/article/pic/201709/113c089463cbffa412e0e66b50bbaf5d.png"/>

採取時下常用的一些預處理及數據增強後,SVDNet水平進一步提高。例如在market-1501上,在採用256✖️128這樣的圖像尺寸之後,resnet-backboned SVDNet能夠達到約84+%的rank-1準確度、65+%的mAP。進一步採用random crop數據增強後,能夠達到88% R-1 accuracy和 68%的mAP。在DukeMTMC-reID數據集上,SVDNet的表現相對更為搶眼。

另外,值得一提的是,SVDNet在caffenet這種老古董網絡結構上也取得非常不錯的性能。這個特點在其他方法中通常是難以做到的(當然,知識蒸餾等方法或許也能達到)。

六、有趣的關鍵

——為什麼用SVD來對W去相關

關於為什麼用SVD來對W進行去相關,文中簡單做了一些證明:任意兩個樣本x1和x2,給定它們在EigenLayer之前的特徵h,考察它們在線性投影后的距離,用W(=USV『)和US作為線性投影層的權矩陣,兩種情況下,樣本間的距離是嚴格保持不變的。而用其它一些去相關方法,樣本間的距離發生改變,且實驗驗證均降低了「去相關操作」後的reid性能。詳細實驗和推導證明見論文。

文中關於上述保距去相關的證明公式非常明了,然而,「想」一個做法比「證明」一個做法遠遠要難的多。作者這個做法其實最早來自於一個直觀解讀:CNN的每個線性層把輸入投影到了新的特徵空間,CNN在訓練過程中,學到了很有鑑別力的投影基向量,也就是W中的各個權向量。以及一個思考:如果CNN告訴我們,一組權向量非常好,但是,CNN有點語無倫次、重複累贅,能不能讓CNN清晰地告訴我們,這組權向量所代表的那些投影基向量,其等效的本質(正交基)是什麼?

舉個極端的例子,假設某一層的權向量有3個,並且是是2維的,分別是v1=(0,1),v2=(0,1),v3=(1,0),顯然,這個權向量結果是不合理的,因為肯定只需要2個權向量就足夠了,那麼,問題來了,CNN認為(0,1)和(1,0)兩個投影方向上的結果是否同樣重要呢?我們是否可以簡單地保留v1和v3,直接丟掉v2呢?我們直覺上會覺得,不是這樣的,CNN試圖告訴我們,在(0,1)上的投影結果更重要,SVDNet中的這個去相關方法,就是將CNN學到的投影向量轉換到一組正交基上、並完全尊重、採納CNN學到的知識本質的方法。

PCA代替SVD,會更好嗎?

關於SVD去相關,還有另一個有趣的討論,是在paper 得到初審結果之後,一位審稿人提出的,而這個問題,也被不少讀者提出:那就是,如果對W進行PCA,也能得到一個正交的矩陣,而且在其它數據處理的地方,經驗通常是:PCA總是優於SVD。那麼,對W進行PCA到底行不行?用W進行PCA會不會更好?筆者認為這是一個非常棒的問題。

首先,用PCA對權向量進行去相關,本身是完全可以的,正如文中對比的QR分解等方法一樣。而且PCA去相關,同樣可以嵌入到RRI之中,不斷提高SVDNet的性能。筆者在rebuttal中,做了實驗,用PCA代替SVD,能夠獲得僅僅輕微低於SVDNet方法的性能。但是,大家應該注意到,PCA和SVD雖然數學意義非常不同,但是,二者在具體運算上,是很相似的:PCA多一個0-均值化運算。而實際上,權向量本身是非常接近0均值的,因此,兩種方法在最終效果上比較接近,其實是非常自然的。

然而,筆者還想指出,在SVDNet的去相關操作中,只有使用SVD是嚴格的、具有數學意義的,而PCA不是。首先,簡單地來看文中的公式:用US去替代W是保證替換權矩陣後、任意兩個樣本的距離不發生改變,因此保留了CNN原有的鑑別能力,這是非常嚴格的。更重要的是,PCA和SVD在去相關時的數學意義完全不同,看如下的示意圖:

<img src="https://static.leiphone.com/uploads/new/article/pic/201709/71a6fe774e7946c93ae6c5611abe7693.png" data-rawwidth="787" data-rawheight="298" class="origin_image zh-lightbox-thumb" width="787" data-original="https://pic4.zhimg.com/v2-7045a748941288d1bbbf6df0fc529f7f_r.png" _src="https://static.leiphone.com/uploads/new/article/pic/201709/71a6fe774e7946c93ae6c5611abe7693.png"/>

假設CNN學到了一個2X2的權矩陣,即有2個權向量,分別是W1和W2。現在,我們分別用SVD和PCA對W這個矩陣進行處理,SVD會得到左邊所示的兩個綠色正交向量S1和S2,S1方向上的投影結果將會被乘以相對較大的權係數;PCA則會得到右圖所示的兩個紅色正交向量(實際上,P1的向量長度會是0,即P1方向上的投影結果無足輕重)。在這個示意圖中,顯然,PCA是不合理的:如果CNN認為黑色的W1和W2是重要的投影方向,那麼,直觀上我們也能感受到,S1(或者P1)方向上的投影結果將是非常重要的。而且,PCA在得到P1和P2時,實際上不是把W1和W2當成兩個向量來處理。PCA實際上是把W1和W2當成兩個點的坐標,求這兩個點散布最大的方向(P2>P1),這樣做是缺乏數學意義的。

七、另一個直觀解讀

本文對CNN得權向量,除了做空間上的投影解讀外,還暗示了一種解讀,在文中受篇幅限制未能展示,那就是——權向量實際上是用於產生特徵的模板。以caffenet為例,當我們採用FC7的輸出作為特徵時,實際上是在拿FC6的特徵去與FC7的4096個模板進行相似性比較(向量內積運算),並將4096個相似值作為最終的特徵。在這個意義上,SVDNet可以認為是讓獲取特徵的模板變得更為豐富。利用Yosinski在2015年ICML[1311.2901] Visualizing and Understanding Convolutional Networks中提供的深度特徵可視化工具,我們可以對最大激活指定神經元的輸入進行可視化,從何直觀感受一下這些潛在模板的真面目。

<img src="https://static.leiphone.com/uploads/new/article/pic/201709/78a172fb40a5f2e7cf92aa3c6870fa5a.png" data-rawwidth="683" data-rawheight="511" class="origin_image zh-lightbox-thumb" width="683" data-original="https://pic3.zhimg.com/v2-27077ecdf54fbfa45a410cbc5f214a0e_r.png" _src="https://static.leiphone.com/uploads/new/article/pic/201709/78a172fb40a5f2e7cf92aa3c6870fa5a.png"/>

上圖中,第一行展現的是5個高度相關的權向量所代表的的神經元所對應的模板圖像,第二行展現的是正常訓練方法中,挑選出的5個不相關權向量所代表的神經元所對應的的模板圖像,第三行則是通過SVDNet訓練方法後,任意的5個權向量對應的模板圖像。一個直觀感受是:在baseline方法中,隱含了大量高度相似的模板圖像,而經過SVDNet之後,所有的模板變得不相像,因此特徵更加豐富了起來。

八、在其它視覺任務上的推廣

到這裡,大家應該同意,SVDNet並沒有專門針對行人的固有特點做量身定製的分析與優化。從上圖,我們也可以直觀感受到,SVDNet訓練得到的神經元更加豐富,達到了的降低過擬合的作用。這種機制在其它視覺任務上或許也有一定的效果。我們還在探究之中。從目前的實驗結果來看,SVDNet在分類任務上有一定的提高效果。在Cifar-10分類任務中,用resnet-20做baseline,rank-1 accuracy從91.8%提高到了93.5%。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 清華博士生孫奕帆:行人再識別論文介紹及最新進展
    ,其實還有一個更為實用的研究應用——行人再識別。行行人再識別是利用計算機視覺技術在圖像或視頻中檢索特定行人的任務,面臨著視角變化大、行人關節運動複雜等諸多困難,是一個極富挑戰的課題。本文就來為大家重點介紹一下行人再識別的一些基礎知識及最新研究進展。2017年,行人再識別研究飛速進展。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...
    以下是今日的精選內容——目錄提高有噪聲情況下的語音識別準確率——而且用常見工具就可以基於對偶圖注意力網絡多方面社交影響的推薦系統想研究蚊子、阻止瘧疾,你需要一個蚊子叫聲數據集用於類遞增目標檢測的交叉數據集訓練卷積均值:一種簡單的用於照度估計的卷積神經網絡提高有噪聲情況下的語音識別準確率——而且用常見工具就可以論文名稱:Improved Robust
  • 行人重識別技術不斷突破 安防企業力拔頭籌
    如何藉助人工智慧技術實現海量視頻數據的智能分析和應用,成為構建智能安防的關鍵。其中,行人重識別(簡稱為ReID)正是核心課題之一。行人重識別是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術,廣泛被認為是一個圖像檢索的子問題。不同於人臉識別,行人重識別是將同一個人在不同攝像設備下的影像匹配起來,生成跨攝像頭時空軌跡。
  • 行人再識別技術取得突破
    近日,國內人工智慧企業澎思科技(Pensees)在行人再識別(Person Re-identification,簡稱ReID)算法上取得突破,在三大主流ReID數據集測試Market1501,DukeMTMC-reID,CUHK03中,算法關鍵指標首位命中率(Rank-1 Accuracy)獲得業內最好成績,刷新了世界紀錄。
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    騰訊優圖實驗室公布了本屆大會的成績:共有12篇論文入選,居業界實驗室前列,其中3篇被選做口頭報告(Oral)。此次騰訊優圖入選的論文提出了諸多亮點:全球首個AI卸妝效果的算法;現今最準確的單張圖像深度估計算法;完美解決多幀信息融合困難的多幀超解析度視頻結果;史無前例的手機雙攝圖像匹配和分割研究成果。
  • 論文詳解:滴滴大數據預測用戶目的地,準確率超90% | KDD 2017
    雷鋒網(公眾號:雷鋒網)將對這篇論文進行詳細解讀。論文解讀相比於在搜尋引擎中找到一個想要的網頁,在茫茫車潮中匹配到一輛載你去目的地的車輛會更加複雜。因為網頁可以持續呈現一整天,甚至半個月;但車輛是高速移動的,乘客和司機的相對位置一直在實時變動。
  • 步態識別100問之「步態識別與行人再識別的區別?」
    行人再識別:靠不變的黑衣服識別人
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域
    其中,oral的論文數為104篇,佔提交總量的2%;spotlight的數目為161篇,佔提交總量的5%;其餘論文均為poster。在競爭越來越激烈的情況下,本次ECCV 騰訊優圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態估計、動作識別、物體檢測等熱門及前沿領域,再次展示了騰訊在計算機視覺領域的科研及創新實力。
  • 【ICCV 2017論文筆記】我們應當如何理解視頻中的人類行為?
    最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章。「What Actions are Needed for Understanding Human Actions in Videos?」 一文應該是我覺得最有趣的一篇文章。這篇論文並沒有提出或改進任何方法,而是通過各種小實驗,對目前視頻行為理解的各種資料庫和方法進行了細緻的討論和思考。
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • 從20 篇ICCV 2017錄用論文,看商湯科技四大攻堅領域|ICCV 2017
    從商湯科技的 20 篇論文中,可以看到其在研究上重點發力的四大主線:跨模態分析:讓視覺與自然語言聯合起來在過去幾年,隨著深度學習的廣泛應用,計算機視覺取得了突破性的發展,很多傳統任務(比如圖像分類,物體檢測,場景分割等)的性能大幅度提高。但是在更高的水平上,計算機視覺開始遇到了新的瓶頸。
  • 中興:行人重識別技術算法刷新世界紀錄
    近日,中興通訊行人重識別(PersonRe-identification,簡稱ReID)技術方面取得突破,在三大主流ReID數據集Market1501、DukeMTMC-reID、CUHK03上算法關鍵指標mAP及Rank-1準確率相比各科研機構和業界廠家前期發布的成果都實現了顯著的提升,刷新世界紀錄。
  • CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    深度信息能夠表徵物體的幾何形狀,並且能夠更精確的描述像素件的幾何連結。因此如何利用深度信息做到更精確的圖像分割成為這個問題最核心的模塊。在此之前的方法都是先將深度圖編碼成HHA圖像,然後再把HHA圖當作另外一張圖像並輸入到神經網絡裡抽取特徵。這種方法在本質上還是一個基於2D的解決思路,無法更好的融合點之間在真實空間的聯繫,並不能使得到的結果很好的利用深度信息。
  • ICCV 2019接收論文提前看,曠視11篇入選文章放出
    摘要: 在計算機視覺領域中,如何在行動裝置上實現實時目標檢測是一個非常重要而又十分有挑戰性的任務。 在本文中,我們以行人搜索任務為例,提出了一種新的優化檢測框定位精度的方法,使其更加適合給定任務。行人搜索旨在從完整的圖片中檢測並識別行人,分為檢測和行人重識別(Re-ID)兩個任務。文章提出一種re-ID驅動的定位調整框架,用re-ID loss對檢測網絡產生的檢測框進行微調。
  • CVPR 2017最佳論文解讀:密集連接卷積網絡
    日前,CVPR 2017獲獎論文公布,其中一篇最佳論文為康奈爾大學、清華大學、Facebook FAIR 實驗室合著的《Densely Connected Convolutional Networks》。在這篇文章中,Momenta 高級研發工程師胡杰對這篇文章進行了解讀。此文為該系列專欄的第三篇。
  • ICCV-2017參會碎碎念+Referring Expression論文解讀
    2017年10月下旬,兩年一度的計算機視覺頂級會議ICCV (International Conference of Computer Vision) 相約世界第一水城威尼斯。揣著一半對學術的熱忱,一半對威尼斯的期待,我來到這座歷史悠久的義大利名城。
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    機器之心發布機器之心編輯部行人重識別,又稱行人再識別,是利用 CV 技術判斷圖像或視頻序列中是否存在特定行人的技術。常規的行人重識別方法往往需要高昂的人工標註成本,計算複雜度也很大。
  • CVPR 2018 中國論文分享會 之「人物重識別及追蹤」
    隨後是由港中文-商湯聯合實驗室的李鴻升教授介紹了他們在行人重識別研究中的新視角。李鴻升教授在今年的 CVPR 中共有 7 篇入選論文,這裡他只介紹了其中兩篇。但是在現實世界的數據中,訓練數據往往只佔全部數據中很小的一部分,因此在實驗中表現良好的模型放到真實世界中可能並不能獲得很好的效果。2、如何進一步促進?有了以上的考慮,怎麼才能夠進一步促進行人重識別的研究,以便能夠在現實生活中加以應用呢?