為損失函數定個框架,碼隆CVPR 2019提出圖像檢索新範式

2020-12-13 機器之心Pro

機器之心原創

作者:思源

全球計算機視覺頂級會議 CVPR 2019 已於今日在美國長灘落幕。從日前公布的獲獎論文中,我們能夠發現華人聲音在該領域愈為響亮,研究成果也備受關注。作為今年大會的黃金贊助商,碼隆科技在 CVPR 2019 上不僅發表了優秀的研究工作,同時還與 Google Research 等合辦了 FGVC6 Workshop,主辦了細粒度商品識別挑戰賽。本文將對碼隆科技的 CVPR 2019 論文進行解讀,介紹碼隆是如何為圖像搜索任務提出一個通用的損失函數框架,並將該領域近十年的損失函數都統一在該框架下。

對於很多研究者而言,以前我們針對圖像搜索任務設計損失函數並沒有統一的框架,很多研究者都通過直觀理解嘗試新的損失函數。但在碼隆科技的這篇論文中,研究者探索了圖像搜索的核心問題:即如何為損失函數的設計提供一個標準框架,從而通過深度度量學習實現更優質的

圖像檢索

論文:Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning論文地址:https://arxiv.org/pdf/1904.06627.pdf統一的損失函數框架:GPW

General Pair Weighting(GPW)是一種通用樣本對加權框架,它希望從底層理解圖像檢索中的損失函數(深度度量學習)。簡單而言,GPW 通過梯度分析將深度度量學習轉化為樣本對的加權問題,為理解基於樣本對的損失函數提供了統一的視角和有力的工具。

注意這裡有兩個關鍵點,即度量學習和基於樣本對的損失函數。首先在機器學習中,

度量學習

的目的在於學習一種低維空間,在這個空間內同類樣本相距非常近,異類樣本距離比較遠。深度度量學習利用卷積網絡的強大的特徵抽取能力,能學習更好的嵌入空間。

其次,GPW 框架關注的是基於樣本對的損失函數,這類損失函數一般可以表示為嵌入空間中的成對

餘弦相似性

。例如最直觀的對比損失(Contrastive loss),它希望正樣本對(或同類樣本對)越近越好,負樣本對之間至少要有大於某個給定的距離,具體而言可以表示為:

其中 I 表示指示函數,如果 i 和 j 為正樣本,則 I_ij 為 1,否則它就等於 0。我們可以了解到,正樣本對的損失就直接是負的相似性 -S_ij,負樣本對只有在相似度高於閾值 λ時損失函數才大於0。從這個簡單的案例,我們可以發現這類損失函數的目標,即在嵌入空間中將標籤相同的同類樣本拉得更近,將標籤不同的異類樣本推地更遠。

既然這類損失函數的基本思想、目標都有這樣的共同點,那麼我們是不是能從本質上理解它們,並提出一種統一的框架呢?這就正是 GPW 希望做到的。

從歸納到統一

為了完成統一,碼隆 AI 中心的研究者探索了十多年來比較常用的基於樣本對的損失函數,並發現它們的一些本質區別。研究者表示:「不同損失函數其實是在給予不同的力度來拉近或推遠某個樣本。例如對比損失,它的基本思想即平均拉近或拉遠所有樣本;又例如三元組損失(triplet loss),它會選取部分樣本來實現拉近或拉遠。」

既然各種損失函數都在給樣本加權以確定「拉或推」的力度,那麼使用什麼樣的函數來加權就非常重要了。在 GPW 框架下,我們可以了解各種損失函數是怎樣做這種加權的。因為 GPW 本身相當於一種理論分析,它把各種基於樣本對的損失函數都放在一個統一的框架下,所以我們能快速了解各種損失函數如何做加權這一本質。

研究者表示,這一本質即是在學習不同樣本對時給它們不同的權重,如果某個樣本包含的信息比較多或比較難學習,那麼它就需要比較大的權重。

如果我們再從 GPW 出發解釋已有的損失函數,那麼就能把它們的加權方式直接寫出來,這是過去沒有人做到的一點。在原論文中,作者們就從 GPW 框架出發解釋了 Contrastive、Triplet、Lifted Structure 等多種基於樣本對的損失函數,感興趣的讀者可查閱原論文。

更強大的 Multi-Similarity 損失函數

其實 GPW 還有更重要的實踐意義,我們可以在它定義的框架下構建性能更強大的損失函數。碼隆 AI 中心的研究者就設計一種名為 Multi-Similarity 的損失函數(MS Loss),它可以顯著提高圖像搜索的性能。研究者表示,該損失函數在多個主要的圖像檢索基準資料庫上都獲得了當時最好的結果。

如下圖所示,MS Loss 通過採樣和加權兩次迭代,實現更加高效的樣本訓練。它通過定義自相似性和相對相似性,在訓練過程中更加全面地考慮了局部樣本分布,從而能更高效精確的對重要樣本對進行採用和加權。這裡重要樣本對通常是含有更大的信息量的樣本對。

原論文圖 1:MS Loss 的兩個階段,其結合了三種相似性。

在 MS Loss 的第一階段採樣中,它會通過某種相似性判斷哪些樣本對學習嵌入空間更重要。例如上圖連著黑線的藍色、紅色樣本點,它們就比同色的其它樣本點重要,信息量更大,因為黃色樣本點要是想與這兩種樣本分離,那就需要把這兩個樣本推開。

第二階段的加權則是在採樣的基礎上進行的,第一階段採樣的樣本有正樣本(黃色)也有負樣本(紅色、藍色),我們需要另外兩種相似性來確定它們的重要性。具體而言,如果正樣本相似性越高,那麼加的權就越少,因為它已經不太需要進一步拉近距離。但如果負樣本的相似性太高,就表示它離 anchor 非常近,我們需要提供更大的權重以令模型學會把它們推地更遠。

MS Loss 定義的三種相似性

前面我們看到 MS Loss 綜合考慮了三種相似性,它們能概括目前大多數基於樣本對的損失函數。它們可以分為自相似性與相對相似性,正如作者所言,給樣本對加權的核心在於判斷局部分布 - 即它們之間的相似性,局部樣本之間的分布和相互關係並不是僅僅決定於兩個樣本之間的距離和相似性,還取決於當前樣本對與其周圍樣本對之間的關係。

因此,對於每一個樣本對,我們不僅需要考慮樣本對本身的自相似性,同時還要考慮它與其它樣本對的相對相似性。其中相對相似性又可以分為正相對相似性 (正樣本)、負相對相似性(負樣本)兩種相似性,它們三者共同構建了上圖 1 的 MS Loss 兩步迭代策略。

自相似性(餘弦相似性):隨著負樣本接近 anchor,樣本對相似性增加;負相對相似性(Negative relative similarity):隨著周圍負樣本聚集在一起,樣本對相似性降低;正相對相似性(Positive relative similarity):隨著周圍正樣本聚集在一起,樣本對相似性降低。下圖展示了上面三種相似性的直觀變化,我們希望計算實線樣本對間的相似性:

原論文圖 2:負樣本對間的三種相似性,從左到右分別為自相似性、負相對相似性、正相對相似性。

圖 2 中 case 1 的相似性是增加的,case 2 和 case 3 的相似性都將降低。因為 case 1 中的自相似性很明顯沒有考慮與周圍樣本的關係,所以作者引入了後面兩種相對相似性。

在 case 2 中,即使 anchor 與負樣本的自相似性不變,但我們還需要考慮負樣本的近鄰。如果負樣本間的自相似性增加,那麼它與 anchor 間的相對相似就自然降低。case 3 也是同樣的道理,正樣本間的自相似要是增加了,那麼 anchor 與負樣本的相對相似性就要降低。

如下表 1 所示,基於樣本對的各種損失函數都可以歸類到這三種相似性,目前只有該論文提出的 MS Loss 能同時考慮三種相似性。

原論文表 1:不同損失函數為樣本對加權所採用的相似性度量,其中 S、N、P 分別表示自相似性、負相對相似性和正相對相似性。

作者表示:「其它損失函數之所以沒能全部考慮三種相似性,是因為它們並沒有特意關注這一本質區別,很多損失函數都是從直覺的角度設計的,因此只考慮到其中一種相似性度量,能考慮到兩種的情況都很少。」此外,如果不能將三種相似性都構建進去,那麼度量方法總會有一些缺陷,效果也就達不到最優。

MS Loss 表達式

前面已經了解到,MS Loss 採用採樣和加權交替迭代的訓練策略來實現上述三種相似性。研究者表示他們實際上也是站在前人的肩膀上,巧妙地融合表 1 中 Triplet、Lifted Structure 和 Binomial Deviance 三種損失函數,它們都只採用三種相似性中的一種。

作者說:「我們需要分兩步完成目標。因為我們很難構建單個訓練和優化步驟來同時實現三種相似性,這樣的公式不僅複雜,同時還容易產生衝突。此外,分為兩步實現也不會違反 GPW 的基本思想。

因為第一步的採樣就是拋棄一些非常不重要,信息量很少的樣本,可以看作將它們的權重設置為 0。這個權重與第二步的權重類似,它們結合起來可以視為一種加權方法。」

總體而言,第一步通過正相對相似性確定哪些是信息量大的樣本對,然後第二步通過自相似性和負相對相似性為重要的樣本對進一步賦不同的權重。

對於正相對相似性,我們可以度量在相同 anchor 下正樣本和負樣本對之間的相似性。具體而言,如果 anchor 與負樣本的相似性比它與最不相似的正樣本對還要大,那麼該負樣本就是重要的樣本。

同理,如果 anchor 與正樣本的相似性比它與最相似的負樣本還要小,那麼該正樣本也含有重要信息。這兩者加起來就是該 anchor 第一步選出的重要樣本。

對於第二步的兩個相似性,研究者結合了 binomial deviance 和 lifted structure 兩種損失函數,且分別利用了自相似性和負相似性。例如給負樣本加權,那麼計算式可以表示為:

其中 λ-S_ij 表示自相似性,S_ik-S_ij 表示相對相似性,上式將兩種相似性結合起來。如果將分母的這兩項分開,那麼它就和前面兩種損失函數非常像。與上式類似,給正樣本加權也由這兩部分組成。

最後,作者將採樣和加權策略結合起來,從而產生了 MS Loss 這種新型基於成對樣本的損失函數。這裡省略了很多具體表達式,包括第一步的挑選準則與最後的融合表達式等等。

因為 MS Loss 在大部分圖像檢索基準資料庫上都有很好的性能,且相比最新的方法也有較大的優勢,所以想要試試該損失函數的讀者不妨查閱原論文細節。

細粒度商品識別挑戰賽

在 CVPR 2019 中,碼隆除了在圖像檢索方面提出非常優秀的算法,同時在細粒度識別方面還舉辦

iMaterialist Challenge on Product Recognition 挑戰賽

。通過主辦此次競賽,碼隆科技希望能夠引發學界和產業界對商品識別這一技術領域的更多關注,共同探究提升細粒度物體識別的算法性能,探索出更好、更強的技術路徑。

據碼隆介紹,該挑戰賽共涵蓋 2019 類 SKU,超過一百萬圖像數據,是 CVPR 迄今數據規模最大、種類最多的商品識別競賽。兩個月的賽程中,全球共有 96 支隊伍、152 位選手通過 1600 次提交參加了競賽。

美國時間 6 月 17 日,碼隆科技在 FGVC6 Workshop 上公布大賽最終結果,前三名分別為京東 AI 研究院、美團點評視覺圖像中心和東信北郵。

相關焦點

  • 對話碼隆科技 CTO 碼特:應對商品識別獨有挑戰,技術研發實力是根本
    對此,碼隆科技倚靠紮實的技術研發實力,從不同的技術路徑來解決這些問題。「比如針對商品上新問題,我們自主研發了弱監督學習算法 CurriculumNet,能夠有效處理有噪音數據和數據不均衡的情況,讓我們僅需 20 張圖像數據進行訓練就能取得與訓練成百上千張圖像相同的效果,從而極大地減輕了其數據收集和標註的壓力和成本。
  • CVPR 2020 Oral|曠視研究院提出Circle Loss,統一優化視角
    近日,大會官方論文結果公布,曠視研究院 16 篇論文被收錄,研究領域涵蓋人臉識別、實時視頻感知與推理、小樣本學習、遷移學習,3D 感知、細粒度圖像等眾多領域。本文是其中一篇 Oral 論文的解讀。在這篇論文中,研究者提出用於深度特徵學習的 Circle Loss,從相似性對優化角度正式統一了兩種基本學習範式(分類學習和樣本對學習)下的損失函數。
  • CVPR 2020丨碼隆科技提出 SiamAttn,將孿生網絡跟蹤器的性能提至最...
    本文介紹的是 CVPR 2020 論文《Deformable Siamese Attention Networks for Visual Object Tracking》,作者來自碼隆科技。本篇論文解讀首發於「碼隆播報」公眾號。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    我們不是像以前的工作那樣直接學習圖像到圖像的映射,而是在我們的網絡中引入中間照明,將輸入與預期的增強結果相關聯,這增強了網絡從專家修飾的輸入/輸出圖像學習複雜的攝影調整的能力。基於該模型,我們制定了一個損失函數,該函數採用約束和先驗在中間的照明上,我們準備了一個 3000 個曝光不足的圖像對的新數據集,並訓練網絡有效地學習各種照明條件的豐富多樣的調整。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    新智元推薦 來源:阿里巴巴AI Labs編輯:克雷格【新智元導讀】阿里AI Labs在最近的論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,其學習方法能在訓練過程中解決梯度消失的難題。
  • CVPR 2019提前看:少樣本學習專題
    如果支持集 S 包含 N 個類,每個類別對應有 K 個標記數據,那麼我們稱此類問題為 N 路 K 樣本分類問題(N-way K-shot classification problem),現在我們假設手上有兩個類別的數據,支持集 S 中每個類別有兩個樣本,查詢集 Q 有一個未標記樣本(類似測試樣本,我們已知標籤,但是對於網絡並不透露它)我們將這個問題歸為 2 類 2 樣本問題,參考下圖 EGNN 框架圖
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    本次挑戰賽中有來自全球各地的圖片壓縮團隊,主要從 PSNR、MOS、MS-SSIM 這三個業界通用的圖像質量評估(Image Quality Assessment,IQA)標準和解碼速度(評分較高的隊伍裡解碼速度最快)四個方面進行評比。賽後,圖鴨科技圖片壓縮團隊提交了自己關於深度學習圖片壓縮方向的論文,他們為雷鋒網 AI 研習社撰寫了關於這篇論文的獨家解讀。
  • 歷年 CVPR 最佳論文盤點
    接收論文列表:   http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt   正當學界紛紛議論各家獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單
  • 碼隆科技升級亮相CVPR 2018——贊學術·新提升·超會玩
    作為碼隆科技參與CVPR的第二個年頭,新提升·超會玩·贊學術,可以說是此行的關鍵詞。碼隆科技弱監督學習算法CurriculumNet在CVPR 2017的WebVision挑戰賽上初露頭角,並以此獲得冠軍。據悉,今年WebVision挑戰賽競爭依舊激烈,冠軍團隊花落百度和北京航天航空大學合作團隊。雖然碼隆科技因為主辦比賽精力有限未能參加今年競賽,但依舊為今年獲勝的戰友們叫好鼓勁。
  • 碼隆科技攜論文亮相 ECCV 2018,科研成果受學術頂會肯定
    本次 ECCV 會議共接收論文 779 篇,錄取率約為 24%,基於對計算機視覺領域商品識別問題的聚焦研究,碼隆科技算法團隊於本次 ECCV 公布了最新的科研成果。其中一篇論文《CurriculumNet:基於大批量網絡圖像的弱監督學習算法(CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images)》分享了碼隆科技最新的弱監督學習算法 CurriculumNet。
  • 滑動窗口也能用於實例分割,陳鑫磊、何愷明等人提出圖像分割新範式
    為什麼需要 TensorMask滑動窗口範式(sliding-window paradigm)是計算機視覺領域最早、最成功的概念之一,這種技術通過查看一組密集圖像上的每個窗口來尋找目標,和卷積神經網絡產生了自然的關聯。最近,避開第二階段的提煉,以直接滑動窗口預測為核心的邊界框目標檢測器開始復甦,並取得了良好的效果。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習
  • 圖像也能做情感遷移?羅切斯特大學團隊提出計算機視覺新任務
    與其他計算機視覺任務相比,圖像情感遷移更有挑戰性,需要對圖像中的每個物體進行不同的情感遷移。該研究提出一種靈活有效的物體級圖像情感遷移框架和新模型 SentiGAN,實驗證明該框架可以有效執行物體級圖像情感遷移。什麼是圖像情感遷移?圖像情感遷移是一個待探索的新型研究任務。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    2019 CLIC 圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。
  • 超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡
    ,從細粒度圖像識別、檢索和生成三個方向展開論述。其中,第一個範式和第二個範式只用和細粒度圖像相關的監督(比如圖像標籤、邊界框以及部分注釋等)進行了限制。此外,由於細粒度存在的挑戰,自動識別系統還不能實現良好的性能。因此,研究人員逐漸試著在細粒度識別問題中融入外部但易於獲得的信息(比如網頁數據、文本描述等)來進一步提升準確率,這對應了細粒度識別的第三個範式。細粒度識別中常用的評估指標是數據集所有從屬類別的平均分類準確率。
  • 全監督語義分割訓練新範式「像素對比學習」,蘇黎世聯邦理工等出品
    因而有研究者提出結構化的(structure-aware)損失函數,如 pixel affinity loss [2],lovasz loss [3] 等,直接在訓練目標函數中對分割結果的整體結構信息進行顯式約束。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    為了克服這個問題,我們提出了一個用於無監督RE-ID的軟多標籤學習深度模型。該想法通過將未標註的人與輔助域裡的一組已知參考者進行比較,為未標註者標記軟標籤(類似實值標籤的似然向量)。基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的hard negative mining方法去學習一種區分性嵌入表示(discriminative embedding)。
  • 當隨機採樣遇見插值,微軟亞研提出節省推理計算量的新範式
    在本文中,來自微軟亞洲研究院視覺計算組、清華大學以及中國科學技術大學的研究者們提出了一種利用圖像的空間冗餘特性來節省計算量的新範式——利用隨機採樣與插值來進行動態推理。在實驗部分,研究者在物體檢測(COCO2017)與語義分割(Cityscapes)兩種任務上驗證了該方法的有效性。
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • 打破框架的範式之爭
    另一種是以 React 為代表的 immutability + referential equality testing。即不可變的數據結構,配合反覆執行的渲染函數,以及在函數執行過程中,通過數據的引用相等性判斷,找出變更部分,只應用變化的部分到 UI 上。Sebastian 文章開篇就表示,兩種實踐方式都有各自的權衡。