支付寶奪冠CVPR細粒度視覺分類挑戰賽:數據增強+知識蒸餾

2020-12-05 機器之心Pro

機器之心發布

機器之心編輯部

近日,支付寶天筭安全實驗室在 CVPR FGVC(細粒度視覺分類)workshop 舉辦的植物病理學挑戰賽(Plant Pathology Challenge)中奪冠。本文介紹了冠軍隊伍及其解決方案。

CVPR(國際計算機視覺與模式識別會議)是由 IEEE 主辦的一年一度的世界頂級計算機視覺學術性會議。大會包含多個 workshop,以及對應的許多計算機視覺算法競賽。

其中 FGVC(細粒度視覺分類)workshop 也舉辦了多項競賽,如 Plant Pathology Challenge。該競賽的任務是:根據蘋果樹葉子圖片區分不同種類的疾病,提高疾病分類的準確率,從而減少化學藥品的濫用,及其導致的耐藥病原體菌株出現的問題。其帶來的效果是顯性地減少種植成本投入、錯誤疾病診斷帶來的經濟損失,以及不必要的環境汙染。

本次競賽共有 1317 支隊伍參加,支付寶天筭安全實驗室獲得冠軍,並與其他隊伍拉開較大差距。

本文將為大家介紹此次競賽冠軍團隊的解決方案。

Plant Pathology 競賽簡介

賽題數據集

本次競賽數據集包含 1821 張訓練圖像和 1821 張測試圖像,每張圖像有四種可能的標籤(健康、銹病、痂病、同時擁有兩種疾病),這四種類型的比例為 6:6:6:1,存在數據不平衡問題,且數據集中有一部分不準確標籤。

因此如何解決數據量少和標籤不準確問題,對所有參賽團隊都是個挑戰。

評價指標

賽題採用 mean column-wise ROC AUC 作為評價指標來衡量模型的性能,該指標的具體計算方式為各類標籤 ROC AUC 值的平均。

冠軍解決方案

如前所述,該競賽數據集存在數據量少以及標籤不準確的問題。為此,支付寶天筭安全團隊採用了數據增強和知識蒸餾技術。

數據增強

由於競賽數據集相對較小,直接使用原始數據進行訓練會導致模型存在過擬合的風險。為了更好地增加模型魯棒性,天筭安全團隊對數據集進行了如下一系列數據增強操作。

1. 隨機光照增強

2. 隨機對比度增強

3. 上下翻轉增強

4. 左右翻轉增強

5. 隨機旋轉縮放增強

此外,該團隊還使用了一些高斯模糊等肉眼不容易區分的增強操作,這些操作極大地豐富了訓練數據集,讓模型儘可能地學習更多的特徵,以增強其泛化程度。

from albumentations import ( Compose, Resize, OneOf, RandomBrightness, RandomContrast, MotionBlur, MedianBlur, GaussianBlur, VerticalFlip, HorizontalFlip, ShiftScaleRotate, Normalize,) train_transform = Compose( [ Resize(height=image_size[0], width=image_size[1]), OneOf([RandomBrightness(limit=0.1, p=1), RandomContrast(limit=0.1, p=1)]), OneOf([MotionBlur(blur_limit=3),MedianBlur(blur_limit=3), GaussianBlur(blur_limit=3),], p=0.5,), VerticalFlip(p=0.5), HorizontalFlip(p=0.5), ShiftScaleRotate( shift_limit=0.2, scale_limit=0.2, rotate_limit=20, interpolation=cv2.INTER_LINEAR, border_mode=cv2.BORDER_REFLECT_101, p=1, ), Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225), max_pixel_value=255.0, p=1.0), ])

模型選型

該團隊採用 seresnext50 作為訓練的模型框架,其中前綴 se 表示 squeeze and excitation 過程。該過程的原理是:通過控制 scale 的大小,把重要的特徵增強、不重要的特徵減弱,原理和注意力機制相同。其目的是讓提取的特徵指向性更強,從而更好地對 FGVC 任務中的精細特徵做識別。

訓練策略

該團隊採用 adam + cycle learning rate 的學習策略進行模型訓練。

這種學習策略的優勢是:通常不會產生太多過擬合,也不需要仔細調參。

誤差分析

誤差分析是提升深度學習模型性能中十分重要的一環。當模型訓練完成後,如何對模型性能進行改進才是提分的關鍵點。

該團隊通過熱力圖的方式將模型對圖片關鍵識別部位提取出來,這樣就能很清晰地了解模型看到了哪些部位才將圖片識別為對應的類別。把識別錯誤的圖片進行分析後,就可以知道模型訓練的整體環節中有哪些可以被改進。

自蒸餾

由於有些疾病較難區分,導致標籤存在一些不準確的情況,這給訓練增加了一定的難度,模型很可能被不準確的標籤誤導。

為了應對這種情況,支付寶團隊採用了自蒸餾的方式來解決該問題:訓練五折模型,然後將五折的驗證集組成 out-of-fold 文件,最後將 out-of-fold 的結果和 ground truth label 按 3:7 混合作為訓練新模型的標籤。簡單來說,就是給每個軟化前的標籤賦予一定的概率,從而降低模型訓練的難度 。

模型預測

在最後提交成績的階段,該團隊採用了 TTA(Test Time Augmentation)策略,對預測樣本都執行了一定的數據增強,然後對這些增強的預測值做平均加權,這也為模型結果起到了一定的提升作用。

小結

細粒度圖像分類是計算機視覺領域中極具挑戰的方向,但這一方向在實際應用中對於提升交易風險辨識度有很大的幫助。支付寶天筭安全團隊在此次競賽中所使用的原創模型,為用戶交易糾紛舉證、網站內容風險識別等場景的技術優化帶來了新思路。

冠軍團隊介紹

該技術研究團隊來自支付寶天筭安全實驗室,隸屬於支付寶安全實驗室。研究方向重點圍繞智能風控和反欺詐技術,探索安全領域的機器學習等前沿問題。此次該團隊不僅在 Kaggle 挑戰賽登頂,在全球僅 180 位 Kaggle Grandmaster 中,天筭安全實驗室佔了 4 位。該團隊還在 2019 年 AI 數據挖掘領域的「世界盃」KDD 比賽中奪冠,在 1600 餘支參賽隊伍中,碾壓了包括谷歌、微軟、Facebook 在內的全球強隊。

安全科技是支付寶的重要科技實力之一,該實驗室是支付寶「你敢付我敢賠」承諾的重要技術力量。

相關焦點

  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    本次挑戰賽中有來自全球各地的圖片壓縮團隊,主要從 PSNR、MOS、MS-SSIM 這三個業界通用的圖像質量評估(Image Quality Assessment,IQA)標準和解碼速度(評分較高的隊伍裡解碼速度最快)四個方面進行評比。賽後,圖鴨科技圖片壓縮團隊提交了自己關於深度學習圖片壓縮方向的論文,他們為雷鋒網 AI 研習社撰寫了關於這篇論文的獨家解讀。
  • 刷新CoQA榜單:基於對抗訓練和知識蒸餾的機器閱讀理解方案解析
    我們團隊針對CoQA數據集的難點,通過對抗訓練(Adversarial training)和知識蒸餾(Knowledge Distillation)等方法,有效地提高了模型的泛化能力,從而依靠單模型刷新了CoQA榜單的記錄,並首次單模型超越人工評測指標。在這裡分別從模型、訓練方法、後處理等方面做一個簡單的介紹。
  • CVPR 2020滿分論文 | FineGym:面向細粒度動作分析的層級化高質量...
    第一,類別的語義定義不再草率地人為制定,而是參考體操領域的專業知識,以國際體操協會發布的專業動作及打分手冊為繩墨。第二,採用層級化的結構,粒度最細、數量眾多的元素類別,則由樹狀結構進行組織。「術業有專攻」:有了數據並定義了類別之後,所需的標註又如何產生呢?FineGym 的標註需要具備足夠的專業知識,所以也不能像以往一樣簡單地依靠眾包平臺。
  • 追一科技CoQA冠軍方案分享:基於對抗訓練和知識蒸餾的機器閱讀理解...
    團隊針對CoQA數據集的難點,通過對抗訓練(Adversarial training)和知識蒸餾(Knowledge Distillation)等方法,有效地提高了模型的泛化能力,從而依靠單模型刷新了CoQA榜單的記錄,並首次單模型超越人工評測指標。在這裡分別從模型、訓練方法、後處理等方面做一個簡單的介紹。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    與一般的識別不同,細粒度圖像識別(fine-grained image recognition)是應該能夠進行局部定位(localizing),並且能在其從屬(subordinate)類別中表徵很小的視覺差異的,從而使各種應用受益,比如專家級的圖像識別、圖像標註等等。
  • IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍算法...
    其中,終生機器視覺數據集全球挑戰賽則屬於 IROS 2019 競賽環節,其中 Lifelong/Continual Learning for Object Recognition 是其中一個 Channel 的比賽。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    Detection ChallengeWAD Domain Adaption Tracking Challenge2.細粒度圖像識別FGVC iNaturalistFGVC Herbarium3.圖像恢復和增強
  • ...CVPR 2020 論文推薦:元轉移學習;ABCNet;動態圖像檢索;點雲分類...
    2020 | Sketch Less for More:基於細粒度草圖的動態圖像檢索CVPR 2020 | PointAugment:一種自動增強的點雲分類框架12-in-1: 多任務視覺和語言表示學習論文名稱:12-in-1: Multi-Task Vision and Language Representation Learning
  • 超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡
    圖 3:細粒度圖像分析的關鍵挑戰基準數據集表 1:主流細粒度圖像數據集匯總表 1 中列出了細粒度問題中常用的圖像數據集,並特地標出了它們的元類別、細粒度圖像的數量、細粒度類別的數量和額外可用的不同種類的監督(即邊界框、部位注釋、層次標籤、屬性標籤以及文本視覺描述等),參見圖 5。
  • CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    由於缺乏具有ASG標註的數據集,我們基於已有圖像描述數據集VisualGenome 和 MSCOCO自動構建ASG標籤進行訓練和測試。我們的模型在這兩個數據集上都取得了更好的控制性。此外,模型可基於多樣化的ASG生成更具有多樣性的圖像描述。二. 方法
  • CVPR 2019 商品識別大賽結果發布,京東AI研究院摘得桂冠
    今年,碼隆科技在 CVPR 2019 與 Google Research 參與合辦了The 6th Fine-Grained Visual Categorization Workshop,並主辦了其中細粒度商品識別圖像分類競賽 iMaterialist Challenge on Product Recognition。
  • 國際挑戰賽冠軍!大工科研再獲重要進展
    課題組創新性地提出一種深度卷積神經網絡模型,在國際標準數據集上取得領先的性能並獲得國際大規模自然物種識別挑戰賽冠軍。對此,課題組創新性地提出一種矩陣冪正規化高階聚合深度卷積神經網絡設計範式,通過學習卷積特徵二階或更高階信息作為圖像表徵,極大地增強了模型的非線性建模能力。
  • 百度的CVPR2020高光時刻——22篇論文 8項冠軍 2場Workshop
    近日,全球計算機視覺頂會CVPR 2020首次召開線上大會,百度不僅入選22篇接收論文,一舉拿下8項挑戰賽冠軍,涵蓋視頻動作分析、動作識別、圖像增強、智慧城市等多個領域,還主辦了2場重量級學術Workshop,在國際舞臺盡顯中國AI硬實力。這不僅從側面反映了百度傾斜AI「新基建」的策略已有成效,也再次讓中國自有的深度學習平臺飛槳閃耀全球。
  • 知識蒸餾-Distilling the knowledge in a neural network
    在2014年Hinton發表的知識蒸餾的論文中用了這樣一個很形象的比喻來說明知識蒸餾的目的。在大型的機器學習任務中,我們也用兩個不同的階段 training stage 和 deployment stage 來表達兩種不同的需求。training stage(訓練階段)可以利用大量的計算資源不需要實時響應,利用大量的數據進行訓練。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    例如,長頸鹿、斑馬和馬同屬於有蹄類動物,這個大類描繪了它們的共同視覺特徵,使得它們很容易與貓/狗區分開來。此外,由於專業水平和應用目的不同,語義分割的目標概念集本質上可以開放化和高度結構化,以適應特定的任務/數據集。然而,一些技術還通過在最終預測分數上採用複雜圖形推斷 [7]、層級損失 [31] 或詞嵌入先驗 [39] 來探索視覺識別的語義層次。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    (2)針對分類與回歸任務設計了動態修正分類器 (圖2(左))與動態修正回歸器(圖2(右)),使模型兼顧靜態知識(statistic knowledge)和動態知識(dynamic knowledge)的學習,賦予模型依據樣本自適應調整的能⼒。結合以上兩點, 優圖設計了統一的動態修正網絡。
  • 基於類別深度典型相關分析的多模態數據下的細粒度場發現
    通過照片發現場地對於視覺上下文感知應用程式非常重要。不幸的是,很少有工作去關注複雜的真實圖像,例如用戶生成的場地照片。我們的目標是從異構的社交多模式數據中去發現細粒度的場地。為此,我們提出了一種新穎的深度學習模型,即基於類別的深度典型相關分析(D-CCA)。
  • 科大訊飛DCASE挑戰賽奪冠,「A.I.+工業」前景廣闊
    在DCASE 2020挑戰賽的Task3任務中,科大訊飛-中科大聯合團隊脫穎而出,在聲音事件檢測F-score、檢測錯誤率、定位錯誤率三項指標中均取得較大優勢並最終奪冠。科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)在Task3任務中奪冠(截圖來源:DCASE挑戰賽官方網站)  這意味著,科大訊飛在人工智慧領域尤其是聲音定位與檢測技術上又有了長足進展
  • 百度大腦奪CVPR2020智能交通頂賽4項世界冠軍,助攻Apollo更強大
    在本屆大會與智能交通關係最緊密的AI CITY Challenge和MOTS Challenge兩大挑戰賽中,百度一舉擊敗阿里、滴滴、卡內基梅隆大學等參賽者,斬獲4項世界冠軍及1個榜單冠軍,並成功衛冕1項冠軍,再度彰顯了百度在「新基建」的大潮下,在智能交通和智慧城市領域領先的技術實力。此外,百度本次奪冠也與飛槳的強力支撐密不可分。