弱監督學習下商品識別:CVPR 2018細粒度識別挑戰賽獲勝方案簡介

2021-01-07 機器之心Pro

機器之心原創

作者:李亞洲、思源

細粒度視覺分類(FGCV,Fine-Grained Visual Categorization)即識別細分類別的任務,一般它需要同時使用全局圖像信息與局部特徵信息精確識別圖像子類別。細粒度分類是計算機視覺社區最為有趣且有用的開放問題之一,目前還有很多難題期待解決。

2011 年,谷歌開始贊助舉辦第一屆 FGVC Workshop,之後每兩年舉辦一次,到 2017 年已經舉辦了第四屆。而由於近年來計算機視覺的快速發展,FGVC 活動影響力也越來越大,從去年開始由兩年一次改為了一年一次。

從 2017 年開始,FGVC 開始運作兩大挑戰賽 iNaturalist 與 iMaterialist。今年的 iMaterialist 挑戰賽是由國內創業公司碼隆科技聯合 Google Research、美國知名電商 Wish、Kaggle 舉辦。值得一提的是,從今年開始 FGVC 開始運行一系列子競賽:iWildCamp、iFood 等。

在 CVPR 2018 尾聲的 FGVC Workshop 上,Google Research 資深工程師兼 FGVC5 聯合主席張曉對 iMaterialist 2018 挑戰賽與比賽解決方案進行了介紹。

iMaterialist 2018 挑戰賽

如何讓機器識別達到趨近乃至超過人眼判定的精準度?這是許多計算機視覺科學家們一直致力解決的問題。業內也有許多知名的挑戰賽,如 ImageNet、COCO 等。但與 ImageNet 這樣的的粗粒度分類競賽相比,細粒度圖像分類技術變得極具挑戰性。

以 iMaterialist 2018 挑戰賽為例,由於細粒度屬性的產品看起來非常相似,且商品在不同光線、角度和背景下拍攝,其識別精度也會受到影響。與此同時,不同商品的相似特徵,也為機器識別增加了一定的難度:比如家具中的球椅和蛋椅,從某些特定角度來看十分相似;再比如服飾的寶藍色和松綠色,在不同的光線條件下也存在一定的相似性。

因此,細粒度識別相比於一般的圖像分類不僅需要使用圖像的整體信息,同時它應該注意到子類別所獨有的局部特徵。例如從總整體上確定球椅和蛋椅都從屬於椅子,然後再根據局部細節確定具體是哪一種椅子。

「但是相關技術具有更大的實際應用意義」碼隆科技表示,「它可以直接轉化為工業界的應用,提高效率、減少成本」。

在此挑戰賽中,碼隆科技與美國知名電商平臺 Wish 提供了所需的服裝和家具圖像數據,並會在之後向學術界開放 120 萬帶標註的商品圖像數據集。此次 iMaterialist 2018 挑戰賽分為 iMaterialist - Fashion 和 iMaterialist - Furniture 兩個 Track。iMat Furniture 2018 的數據集為清理標註過的乾淨數據,而 iMat Fashion 2018 的數據集為未清理過的噪聲數據。

經過 3 個多月的角逐,iMaterialist 2018 挑戰賽最終分出勝負:

解決方案

一般細粒度識別可以分為兩種,即基於強監督信息的方法和僅使用弱監督信息的方法。基於強監督的細粒度識別通常需要使用邊界框和局部標註信息,例如 2014 年提出的 Part-based R-CNN 利用自底向上的候選區域(region proposals)計算深度卷積特徵而實現細粒度識別。這種方法會學習建模局部外觀,並加強局部信息之間的幾何約束。而 iMaterialist 2018 僅使用類別標籤,因此是一種弱監督信息的細粒度識別。

其實在這一次競賽中,很多不同的方法都有它們各自獨特的亮點。例如在服裝第一名的解決方案中,雖然它也是利用預訓練 resnet152、 xception 和 dn201 等模型並結合 XGBoost 做預測,但 Radek Osmulski 另外使用了 1 Cycle LR Policy 進行精調。

1 Cycle 用兩個等長的步驟組成一個 cycle:從很小的學習率開始,慢慢增大學習率,然後再慢慢降低回最小值。Radek Osmulski 在增大學習率的同時降低動量,這也印證了一個直覺:在訓練中,我們希望 SGD 可以迅速調整到搜索平坦區域的方向上,因此就應該對新的梯度賦予更大的權重。其實在真實場景中,可以選取如 0.85 和 0.95 的兩個值,在增大學習率的時候,將動量從 0.95 降到 0.85,在降低學習率的時候,再將動量重新從 0.85 提升回 0.95。

在服裝第二名的解決方案中,作者採用了如下網絡架構。首先開發者會採用非常多的數據增強方法增加輸入圖像,例如水平翻轉、旋轉、高斯模糊、銳化、截取和歸一化等方法。然後根據 DenseNet、inception_resnet_v2、Inception-v3、Nasnet 和 ResNet-50 等九個基礎卷積網絡抽取輸入圖像的特徵,並分別作出預測。最後結合所有基礎模型的預測就能得出非常不錯的最終結果。

如前所述細粒度識別需要很多局部圖像信息才能實現子類別的判斷,谷歌(需要確切身份)Xiao Zhang 表示:「選手這些網絡最終層的 dimension 都比較小(比如 7x7),這種情況下最終做決策時很難兼顧不同尺度的信息。如果需要兼顧局部和整體需要使用 Feature Pyramid Network,或者類似於編碼器/解碼器的結構在最終層使用高維的預測。」

在整個流程中,Stacking CNN 是非常有意思的過程。開發者會將九個模型的預測結果疊加在一起為 9×228×1 的張量,其中每一個基礎模型提供一張 1×228×1 的張量,它代表了模型對 228 個類別的預測結果。如下所示當疊加為這種張量後,我們可以使用 3×1 的卷積在它上面執行步幅為 1 的卷積運算,這種卷積可以學習到各基礎模型原始預測之間的相關性。

上圖輸出張量 7×228×8(8 個 3×1 的卷積核),在經過 16 個 3×1 的卷積核執行卷積運算並饋送到全連接層後,就能做出最終的預測。因為 3×1 的卷積其實相當於在同一個類別上,加權三個模型的預測並輸出到下一層。所以這也相當於一種集成方法,模型會自動學習不同基礎模型預測的重要性,並結合所有基礎模型作出最終預測。

家具細粒度分類的兩個解決方案也非常有特點,例如 Roman Khomenko 和 Lei Li 設計的家具第一名解決方案使用了一種稱之為概率校準的技術。他們表示在訓練集中,類別數量是非常不平衡的,但在驗證集中類別數量是平衡的,因此我們可能需要使用概率校準以解決這種訓練於驗證之間的分布差異。

Google Research 張曉表示:「校準分為兩步: a) 對於每個 label 的預測概率,除以該類別的物體數,除以對應的先驗概率; b) 對所有更新後的 label 的預測概率做歸一化(相加得到 1)」

Dmytro Panchenko 和 Alexander Kiselev 設計的解決方案獲得了家具第二名,他們其實也使用了多個卷積網絡的集成方案。總的來說,這四個解決方案都是使用多個預訓練卷積網絡,它們會分別在訓練集與驗證集中進行學習與調參,然後再使用不同的集成方案總結各個模型的預測結果。

Dmytro Panchenko 等開發者集成的基礎模型。

因為細粒度識別很多時候需要使用注意力機制或 Faster R-CNN 等方法抽取局部特徵,並用於預測最終細分類別,而挑戰賽中的模型很多都是模型集成。因此我們可能會比較好奇為什麼不在競賽中使用前沿和優秀的細粒度識別模型呢?Dmytro Panchenko 團隊解答到:「我們其實也考慮了這個問題,並花時間進行調查和查文獻,也許我們可以訓練出照片上分割目標的網絡。但這些方法很多都需要額外的標註,而且我們也不知道哪些特徵對不同類型的椅子是最重要的,因此我們只是採用了「默認」的方式(完全不是因為我們懶)。」

此外,他們表示:「照片很多都來自在線購物網站,其中 99% 圖像的主要目標都在圖像中央,幾乎是完美的剪裁。因此我們認為如果訓練集足夠大,那麼 CNN 能從中抽取到足夠好的特徵。」

最後,作為聯合舉辦單位,碼隆科技首席科學家黃偉林博士總結,在多年從事商品識別的研究和實踐過程中,面臨的三個主要難點。首先,細粒度商品識別,特別是對 SKU 級別的識別是至關重要的。如下圖所示,不同種類的益達口香糖,在零售過程中通常價格會不太一樣,因此需要作精確區分。其次,除了細粒度分析,SKU 級別的商品識別通常需要識別大量的商品種類,比如超過 10 萬類,而常見的 ImageNet 物體識別通常只有 1,000 類。這是商品識別的另一個挑戰,而常用的單層 softmax 分類模型很難解決。

這就需要引進多層級聯的細粒度分類算法,從而加大細粒度識別的難度。最後,由於商品類別多,就要去更多的海量訓練數據和人工標註,比如 10 億級別的。對於如此數量的人工標註和數據清洗,是很難完成的。因此,如何有效地利用海量網絡爬去的商品圖片,在沒有或者只有少量人工標註和清洗的情況下,訓練一個高性能的商品識別模型,成為一個關鍵的技術。碼隆科技最近提出的弱監督學習算法- CurriculumNet,就是專門為訓練海量無工人共標註的海量網絡圖片而設計的。

此次 FGVC5 挑戰賽是現實應用場景問題促進算法探究的一次實踐,從數據集數量到參賽團隊規模都上升到新的臺階,這也說明商品識別這類細粒度識別問題正在引起更多學者、技術從業者關注。據悉,碼隆科技和 Google Research 正在積極探究更深入的細粒度人造物識別場景,並期待下一年繼續共同舉辦相關挑戰賽。

相關焦點

  • CVPR 2019 十大細粒度視覺識別挑戰賽來襲,谷歌發來參賽徵集令!
    例如,FGVCs 不在於尋求可以區分「鳥」等類別的方法,而是致力於識別子類別,例如「白腹藍彩鵐」或「靛彩鵐」。FGVCs 此前的挑戰賽都吸引了大量有創造力的參賽者,他們都在比賽中開發了獨具創新性的圖像識別新模型,其中 CVPR 2018 的 FGVC5 則有超過 500 個隊伍參賽。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。
  • 對話碼隆科技 CTO 碼特:應對商品識別獨有挑戰,技術研發實力是根本
    然而,行業應用場景中的一系列計算機視覺底層技術,仍存在較大的挑戰,就比如說商品識別技術,相較於人臉識別、場景識別等技術相比,它因其特殊屬性而面臨著其獨有的挑戰,比如商品包裝雷同問題、商品上新問題等等,對於該細分行業的玩家在技術實力以及技術產品化方面都提出了更高的要求。
  • 深度學習: 細粒度圖像分類 (fine-grained image recognition)
    細粒度圖像分類(Fine-Grained Categorization),又被稱作子類別圖像分類(Sub-Category Recognition), 是近年來計算機視覺、模式識別等領域一個 非常熱門的研究課題.
  • 超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡
    在 CV 的各個研究領域中,細粒度圖像分析(fine-grained image analysis, FGIA)是一個長期存在的基礎性問題,而且在各種實際應用(比如鳥的種類、汽車模型、商品識別等)中無處不在。由細粒度特性造成的類間(inter-class)小變化和類內(intra-class)大變化使得這一問題具有極大的挑戰性。
  • 碼隆科技升級亮相CVPR 2018——贊學術·新提升·超會玩
    相較於ImageNet的粗粒度分類競賽,iMaterialist挑戰賽強調在「人造物「垂直分類進行圖像細粒度分類挑戰,有兩大特色1)相對粗粒度分類,細粒度分類的技術難度更大,很多細粒度分類數據集現在未經專業訓練的人眼都難以辨認;2)細粒度的分類,尤其是「人造物」商品分類有更加實際應用的意義,可以直接轉化工業界應用,提高效率、減少成本。
  • Kaggler 看過來,CVPR 2018 Workshop 植物識別賽來襲
    雷鋒網 AI 研習社按,隨著生活水平的提高,人們越來越關注身邊的環境及植物,因此植物識別的需求也日益增多。
  • 深睿研究院8篇論文入選CVPR2019,圖像識別與醫學影像分析等技術...
    2019年6月16日-6月20日,全球計算機視覺與模式識別頂級會議(IEEE CVPR 2019)將在美國長灘拉開帷幕,本次會議論文收錄工作已經結束。深睿研究院CVPR2019錄取論文在以下領域實現了創新性突破:醫學影像微小病灶檢測、細粒度圖像分類、基於弱監督的顯著性檢測、圖像與自然語言的綜合理解,統計理論與深度學習相結合,採用「異常檢測」新思路準確檢測醫學圖像中富於變化的弱信號等前沿技術。這些全球領先的計算機視覺算法顯示了深睿研究院在計算機視覺領域強大的核心人才儲備、科研文化底蘊和技術創新能力。
  • 國際權威弱監督學習賽事開幕!冠軍團隊將受邀百度CVPR LID workshop
    作為國際計算機視覺與模式識別領域的頂級學術會議,一年一度的CVPR 匯集了世界範圍內的頂尖學者與企業。一直以來百度積極參與各屆CVPR大會,屢屢取得矚目成績,如CVPR 2019中,百度共有17篇論文被收錄,並接連獲得 10 項 CVPR 競賽任務的冠軍,涵蓋視覺領域下的視頻理解與分析、圖像超分辨、智能城市車輛識別等眾多前沿方向。
  • 這家上海AI企業CVPR挑戰賽奪冠,能識別多種類木薯疾病
    在今年的CVPR上,來自上海的一家人工智慧公司——深蘭科技DeepBlue,在Cassava Disease Classification挑戰賽中,從全球88個團隊提交的超過1300份方案中脫穎而出,拿下冠軍。國際計算機視覺與模式識別會議(CVPR)是IEEE一年一度的學術性會議,會議的主要內容是計算機視覺與模式識別技術,是世界頂級的計算機視覺會議之一。
  • 騰訊提結合ACNet進行細粒度分類,效果達到最新SOTA|CVPR 2020
    受神經樹研究的啟發,論文設計了結合注意力卷積的二叉神經樹結構(attention convolutional binary neural tree architecture, ACNet)用於弱監督的細粒度分類,論文的主要貢獻如下:提出結合注意力卷積的二叉神經樹結構ACNet用於細粒度分類,在樹結構的邊上結合了注意力卷積操作,在每個節點使用路由函數從而定義從根節點到葉子節點的計算路徑,
  • 學界 | 北郵奪冠CVPR 2018 DeepGlobe比賽,他們是這樣做衛星圖像識別的
    獲獎的北郵模式識別實驗室和周理琛同學向大數據文摘獨家解讀了他們的奪冠方法論,還將帶來一次公開分享,一起來學習吧!☟掃描海報中的二維碼,報名公開課,聆聽來自冠軍的獲勝法寶~~~從衛星圖像中分割道路是一項十分具有挑戰的任務,該任務可以應用於地圖生成、汽車自動駕駛與導航等多個場景。同時,衛星圖像道路分割相較於一般的分割任務,有其獨特性和困難性,具體表現為:在衛星圖像中,目標道路所佔據畫幅比例普遍偏小;河流、鐵路等又與道路過於相似,甚至人眼也難以判別;道路分叉連通情況也很複雜,這對於道路提取的識別精度有著相當高的要求。
  • 學界 | 精細識別現實世界圖像:李飛飛團隊提出半監督適應性模型
    目前的業內最佳細粒度分類方法專注於全監督學習方式:由人類注釋圖像,對所有感興趣的類別進行監督訓練。針對這些方法,研究人員已經提出了一系列數據集用於訓練模型識別所有類別與場景,或專注於細粒度識別任務。圖 1. 研究人員的目標是在真實世界中進行細粒度識別,同時不需要大量昂貴的已標註圖片數據。
  • 支付寶奪冠CVPR細粒度視覺分類挑戰賽:數據增強+知識蒸餾
    機器之心發布機器之心編輯部近日,支付寶天筭安全實驗室在 CVPR FGVC(細粒度視覺分類)workshop 舉辦的植物病理學挑戰賽(Plant Pathology Challenge)中奪冠。本文介紹了冠軍隊伍及其解決方案。
  • 深度學習角度 | 圖像識別將何去何從?
    這些經典的模型其實在很多博文中早已被介紹過,作者的創新之處在於透過這些經典的模型,討論未來圖像識別的新方向,並提出圖像識別無監督學習的趨勢,並引出生成對抗網絡,以及討論了加速網絡訓練的新挑戰。文章梳理了用於圖像識別的深度學習方法的脈絡,並對將來的挑戰和方法做了分析,非常值得一讀!專知內容組編輯整理。
  • 超詳綜述 | 基於深度學習的命名實體識別
    全文簡介2. NER任務簡介3. NER標註語料庫(公開評測集)4. off-the-shelf NER工具5. 評價指標6. 序列標註標籤方案7. 四類NER常用方法8. 基於規則的NER方法9. 基於無監督學習的NER方法10.
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    在本文中,中山大學研究者提出的弱監督行人重識別方法恰恰克服了這兩方面的障礙,並發布了一個大型行人重識別數據集。近期,中山大學發布了一種基於可微圖學習的弱監督行人重識別(person re-ID)方法和一個大型數據集。該方法結合可微圖學習和弱監督學習方法,為行人重識別深度神經網絡加入自動生成訓練標籤的模塊並與其一體訓練。
  • 螞蟻金服提自監督表徵學習識別方法
    簡介大規模帶有標籤驗證碼圖像難以收集,但是無標籤的圖像樣本卻是很容易大量採集得到。而在深度學習領域中,無監督學習和表徵學習都可以減少對於標籤樣本的依賴,充分利用無標籤數據樣本去學習數據表徵,提升深度學習方法的性能。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習
  • 【深度】從經典深度學習模型探討圖像識別新方向
    【導讀】1月22日,深度學習工程師George Seif發布一篇文章,主要介紹了一些經典的用於圖像識別的深度學習模型,包括AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet的網絡結構及創新之處,並展示了其在ImageNet的圖像分類效果。