京東AI Fashion-Challenge 挑戰賽冠軍方案詳解(風格識別+時尚單品...

2020-11-22 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:隨著消費升級時代的來臨,中國時尚消費市場正漸漸變得更加個性化、精緻化和多樣化,服飾的時尚風格對消費動機的影響愈漸加深,而隨著 AI 技術的發展,AI 也越來越多地被應用於時尚領域。

基於以上原因,京東集團 AI 平臺與研究院推出與時尚相關的 AI Fashion-Challenge 挑戰賽,該項賽事包括時尚風格識別和時尚單品搜索兩個子任務。

對於風格識別賽道,主要面臨兩大難題,一是基於京東真實數據集的樣本差異非常明顯,二是時尚還面臨主觀性和專業性問題,是非常具有難度的多標籤分類任務之一。本次競賽邀請了專業時尚設計界人士,在設計師指導下標註了大量京東的女裝商品照片的整體時尚風格,共分為 13 類風格。

另一個賽道是時尚單品搜索,這是時尚領域比較常見的視覺搜索任務,除了前面提到的主觀性挑戰,圖片中的物體具有不規則的特性,角度和形狀也具有多樣性,這也都為解決本問題帶來巨大挑戰。

據京東 AI 平臺與研究部叶韻博士介紹,本次比賽共有 212 支隊伍報名,52 支隊伍提交結果,共收到 12 份技術報告,參賽人員來自 6 個不同國家和地區,涵蓋 196 所大學和研究所,包含 31 家公司。最終,「西天取京」隊以 0.6834 F2 Score 獲得時尚風格識別子賽道冠軍,「Fashion_First」隊以 0.5886 mAP 獲得時尚單品搜索子賽道冠軍。

「西天取京」隊成員如下:

  • 丁煌浩

    dinghuanghao@gmail.com

  • 萬輝

    wanhui0729@gmail. com

「Fashion_First」隊成員如下:

  • 陳亮雨,中國科學院自動化研究所實習生

  • 吳旭貌,中國科學院自動化研究所實習生

  • 方治煒,中國科學院自動化研究所博士在讀

  • 劉靜(帶隊老師),中國科學院自動化研究所研究員

以下為這兩個賽道冠軍方案:

風格識別賽道

本次競賽開發數據包含 5.5 萬張經過專業標註的真實京東時尚單品展示圖,該數據用作模型訓練及調優。 測試數據包括 1 萬張經過專業標註的真實的京東時尚單品展示圖。任務描述如下:給定一張時尚照片 I,參賽算法需要預測

 

其中S={運動,休閒,OL/通勤,日系,韓版,歐美,英倫,少女,名媛/淑女,簡約,自然,街頭/朋克, 民族}

工程方面:

以 Keras 作為基礎框架,對其進行了一定的優化和封裝,大大的加快了開發進度,具體如下:

  • 採用 Config-Driven-Development 的開發方式,對所有的技術和參數進行封裝,只用修改配置文件即可自動進行訓練、評估、統計、集成。

  • 擴展了 Keras 的數據加載器 ,使其支持 TTA、K-Fold Cross Validation。

  • 將 Keras 的 Evaluate 方法改為異步,減少了訓練的中斷。

  • 將 XGBoost 的參數分發到多臺 PC 訓練然後合併,縮短了訓練時長。

模型:

採用多種不同的 Backbone,包括 ResNet、Inception、Xception 等,後接兩個 FC 層,分別為 256、13 個神經元(多隱層提升並不大),兩層之間使用 BN,使用 Cross-Entropy Loss、Focal Loss 進行模型的訓練。這種結構相當於構建了 Multi-task 學習,比起每個標籤單獨訓練模型而言,速度更快,且精度更高。

數據增強:

使用了一些比較通用的方法,包括隨機裁剪(橫15%,縱10%)、拉伸(10%)、壓縮(10%)、水平翻轉。裁剪時考慮到人的比例,橫向和豎向的裁剪比例不同,這樣會有一定的提升。

除此之外,提出一種專門針對服裝的變色方案:

  1. 使用 MASK-RCNN 分割出人像;

  2. 根據人像區域中的顏色比例,推測出服裝的顏色;

  3. 對服裝顏色在全局進行 HSV 變換。

這種方法的好處是變化的平滑以及自然,缺點是一定程度上影響了背景。最終,一共生產出大約 130K 圖片,考慮到計算量,並沒有全部使用。

測試時,嘗試了兩種增強,一種是水平翻轉,一種是裁剪(左上、左下、右上、右下、中央)。五種裁剪操作加上翻轉一共有十種變換,雖然效果更好,但會有很大的性能損耗。最終僅採用了水平翻轉,可以將結果提高一個百分點左右。

處理標籤不均衡:

此次比賽的數據集存在嚴重的標籤不均衡,數量差異可達 480 倍。主要採用了如下的四種方案來解決:

  • 上採樣:對所有稀疏標籤相關樣本進行上採樣。因為這是一個多標籤分類問題,雖然密集標籤相關樣本數量也會被連帶進行部分上採樣,但是比例會變得更均衡。

  • 下採樣:因為小標籤本來就很少,如果再對它進行下採樣,後果會更加嚴重,因此下採樣時只對那些所有標籤都是密集標籤的樣本進行下採樣,不會影響到稀疏標籤相關樣本。

  • 數據生成:使用前面提到的服裝變色技術對稀疏標籤相關樣本進行變色。

  • 優化損失函數:使用 Focal Loss(使用網格搜索法進行了簡單的調參),提升了 1% 左右。如果與加權法相結合,應該會帶來更好的效果(參考第二名)。

下圖左邊是上採樣之後各個標籤的 F2 score,右邊是提升值。比賽中對 0,3,6,12 這四個標籤進行了上採樣,可以看到這四個標籤平均提升值大約在 3.5% 左右。

下採樣過程中隨機對樣本進行刪除,分別測試了 20%,40% 和 60% 的下採樣,可以看到 20% 的時候效果最好。

調參:主要使用 Adam,batch-size 為 32,圖像短邊為 224(經測試,尺寸越大結果越好,但由於算力限制,仍以 224 為主),使用 Cyclic Learning Rate 和階段性 Fine Tuning(以較大的學習率訓練後幾層,然後逐步增加訓練的層數並減小學習率,最初始的幾層不進行訓練),這可以加快速度,並提高準確率。

閾值搜索:

由於每個標籤的概率分布不同,因此需要不同的閾值(如某些數量較小的標籤,輸出值往往低於 0.5,而數量較多的標籤輸出值大於 0.5)。

我們嘗試了三種方案:第一是固定閾值,人為根據概率分布去篩選閾值。第二,用 L-BFGS 去搜索,第三,只用了貪心搜索。最後得出來的結果是,固定閾值效果較差,L-BFGS 和貪心搜索差異不大,但貪心搜索更快,也更穩定。

為了驗證 CV 集上貪心搜索的泛化能力,我們在後來官方公布的測試集上也進行了搜索,並進行了對比,發現 CV 上的閾值和 TEST 上的閾值之間的差異小於 0.1,而且是類似正態分布。不管是密集標籤還是稀疏標籤,都是這樣的分布,可見貪心搜索算法在本任務中有較好的泛化能力。

模型集成:

模型集成的關鍵主要是在於模型的「好而不同」,即模型效果首先要效果好,還要具有多樣化。我們使用如下方法來實現:

第一,使用了多種優秀的 backbone網絡,包括ResNet、Inception、Xception、DenseNet 等;

第二,針對每個模型,在訓練過程中對參數、數據集進行微擾;

第三,我們計算了所有模型的模型相關度,篩選掉相關性大於 90% 的模型。

第四,基於每個標籤獨立挑選最優秀的模型。由於訓練過程中,不同標籤到達最優的 epoch 不同,因此我們以標籤為單位根據 F2-Score 對所有模型的所有 epoch 進行統一排序,並挑選 Top-N 模型。

集成方法是使用 Stacking + Bagging 進行集成。訓練階段,首先使用 5-fold validation 訓練大量 CNN 模型,並將所有 fold 的預測拼接在一起構成新的數據集輸入到XGBoost 中,同樣使用 5-fold validation 訓練 XGBoost。預測階段,將圖片輸入 5-fold 的 CNN 網絡,然後再分別輸入到 5-fold 的 XGBoost,最後通過投票的方式得到最終輸出。

詳細信息參見:

https://fashion-challenge.github.io/西天取京.pdf

時尚單品搜索

任務:給定一個大規模時尚單品的電商展示圖集合 S,其中每個時尚商品都屬於{上衣,鞋子,箱包}中的某一類。對於任意一張時尚單品的用戶實拍圖 q,都存在一個與之相匹配的電商展示圖集合

本賽中,設定任意的用戶實拍圖 q 都至少存在一張商品同款圖在S中。參賽算法需把 S 中的電商展示圖依照與 q 的相似度降序排列,提交前10的最相似圖片。

本次比賽的難點主要有兩方面:第一,商品匹配的細節化,這意味著兩個商品圖片是否匹配,其關鍵點往往取決於某幾個局部細節的異同。第二,商品成像角度的多樣性。任意一件商品都可能從任意一個角度被呈現出來,這會導致匹配的商品圖像視覺特徵差異很大。

近幾年,隨著深度學習的發展,圖像檢索的研究也隨之被大大推進。卷積神經網絡在解決光照、尺度、紋理等問題上面展現出很強的優越性。但是對於本賽事中的商品檢索任務所面臨的上述兩個問題,卻仍然是一個極大的挑戰。在本次比賽中,Fashion_First 團隊提出一種多粒度局部對齊神經網絡,有效解決上述兩個問題,使得商品檢索的精度有了很大的提高。

此次冠軍方案主要有以下兩個亮點:

網絡框架

Fashion_First 採用的網絡是 ResNet101,在訓練模型之前,對檢索庫的圖片進行了預分類,最後的效果將近 99%,符合使用需求。不同於現在大多數人使用基於度量 Loss 的網絡,我們依舊把這一個任務看成一個分類問題,既簡單又高效。

網絡有四個分支:全局分支,橫向分支,縱向分支以及環形分支。

全局分支負責學習全局特徵,以保持模型對整體信息的抓取能力。橫向分支主要學習具有水平方向的平移不變性的特徵,為了能夠在不同尺度上學習這一特徵,模型對特徵圖在水平方向上進行不同粒度的切分:一個均分為兩等分,一個均分為三等分。最終水平方向會產生 5 個局部特徵,每個局部特徵都會經過平均池化和最大值池化以及一個 1x1 卷積後用於商品分類器的訓練。類似地,縱向分支的目的是學習具有垂直方向平移不變性的特徵。

與上面不同的是環形分支,其任務是學習具有旋轉不變性的特徵。與 STN 和可變卷積不同,Fashion_First 團隊提出環形池化方法,不需要額外參數,即可保持旋轉不變性。其具體做法是對原始特徵圖從中心開始,按照不同半徑,提取環形特徵子圖(實際操作採用方環形而非圓環形的方式提取)進行均值池化和最大值池化,然後相加起來。這種方式在理論上可以輕鬆保持 360 度的旋轉不變性,並且在試驗中也取得了很好的效果。

上述四個分支構成多粒度的局部對齊神經網絡,訓練過程簡單高效,檢索結果性能優異,取得了本次賽事單品搜索任務的第一名。


實現細節

此次比賽在參數的設定上,整體的 Loss 值使用各個分支的交叉熵 Loss 的和,輸入圖片的尺寸為 384×384。在訓練過程中,batch size 最初設置為 64,Adam 優化器的初始學習率設置為 0.06,在 20 個 epoch 的時候衰減到 0.012,大概在 55-60 epoch,可以得到收斂。

以下是實驗結果,可以看到水平、垂直和環形三種方式的對比,環形相較另外兩種方式能得到很大的提升,另外不同的主幹網絡得到的結果也有著較大的差異。

比賽的最後階段主要進行的是模型融合,相似網絡結構的模型融合的提升效果一般。主要融合的模型有四個 Resnet101, Resnet152, Resnext101 和 Densenet169,最後得到的 mAP 為 0.55886,與單模型相比有著 2 個點的提升。

詳細信息可以參見:

https://fashion-challenge.github.io/fashion_first.pdf

比賽更多信息:

https://fashion-challenge.github.io/#index

雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 中國多媒體大會首日:四大技術競賽優勝方案出爐,學界業界成果大展示
    提及今年會議的亮點,他著重談到新增的四項技術競賽——用戶興趣建模、AI 在時尚領域的應用、圖像壓縮後處理、圖像去霧處理。雷鋒網 AI 科技評論看到,四項大賽的優勝方案也在現場進行了展示。京東 Fashion AI 挑戰賽時尚風格識別冠軍由來自業界的個人參賽者丁煌浩和萬輝獲得,他們詳細展示了這次比賽所用的模型、數據增強、調參、閾值搜索、集成階段的方案,詳細信息可以參見:https://fashion-challenge.github.io/%E8%A5%BF%E5%A4%A9%E5%8F%96%E4%BA%AC.pdf來自陝西師範大學的張魯同學則獲得了基於深度學習的圖像壓縮後處理競賽冠軍
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    這也意味著以零售、物流、金融、客服等優質場景為依託的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。圖 1QuAC 挑戰賽官方成績榜單(https://quac.ai)目前,QuAC 是人機多輪對話交互領域複雜度最高的數據集,要求模型具備強大的上下文語義理解、指代推理、省略語義恢復和知識推理等能力,這也吸引了全球頂級科研院所和企業研究機構參加。
  • 科大訊飛摘得ICFHR 2020數學公式識別挑戰賽冠軍
    近日,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室,以顯著優勢獲得ICFHR 2020 OffRaSHME數學公式識別挑戰賽冠軍。這是科大訊飛繼ICPR 2018 MTWI圖文識別挑戰賽上獲得三項冠軍、ICDAR 2019 CROHME數學公式識別挑戰賽上獲得兩項冠軍後,在複雜版面文檔圖像識別理解方向上所取得的又一佳績,再次展現科大訊飛在相關領域的技術先進性。
  • CVPR 2019 商品識別大賽結果發布,京東AI研究院摘得桂冠
    美國時間6月17日,在CVPR 2019 FGVC6 Workshop上,碼隆科技正式宣布大賽前三名分別為京東AI研究院、美團點評和東信北郵。隨著消費升級,商品識別的可應用場景持續增加,這部分的計算機視覺研究越發重要。一方面,它的技術難度較大,許多細粒度屬性的商品看起來十分相似,還可能被摺疊或遮擋,同時在不同光線、角度和背景下的拍攝也會對識別精度產生影響,因此即便對於經過專業訓練的人眼來說,很多細粒度分類數據集也難以快速且準確地辨認。
  • 當CV碰上無人機:ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀
    機器之心發布作者:羅志鵬近日,在 ICCV 2019 Workshop 舉辦的 Vision Meets Drone: A Challenge(簡稱:VisDrone2019) 挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了「視頻目標檢測」和「多目標追蹤」兩項冠軍。
  • 經濟學人GRE雙語閱讀 科技與時尚單品的完美融合
    點這裡>>脆弱民主制度下的選舉Technology and luxury goods——Catwalk credentials科技時尚單品:優雅融合Why Burberry's boss is a perfect fit for Apple Burberry老闆與蘋果如此合拍,秘密何在?
  • NIPS 2018人工智慧假肢挑戰賽結束,百度Firework團隊奪得第一
    雷鋒網 AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術挑戰賽也接近尾聲。關於挑戰賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰賽已經開始啦在上周結束的 2018 人工智慧假肢挑戰賽(AI for Prosthetics Challenge)中,來自中國百度的技術團隊 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領先第二名高達 30 多分。
  • 提升品味,9條時尚法則照著做
    0.1 通過影像了解時尚linkfashion讓時尚滲入到點滴日常。0.2 做真實的自己linkfashion衣服是自己內在特質的外現,穿的時尚,永遠不如穿的像自己重要。0.7 從個性單品開始搭配linkfashion「在搭配的時候,我總是先從自己最愛的那一件設計開始,
  • 交大學子獲第16屆歐洲計算機視覺大會VisDrone2020技術挑戰賽冠軍
    西安交通大學電信學部軟體學院教授龔怡宏組織研究團隊參加了此次會議舉辦的技術挑戰賽並獲得冠軍。 VisDrone2020 多目標跟蹤賽道場景 在7月15日結束的ECCV 20「Vision Meets Drone: A Challenge」(簡稱VisDrone2020)挑戰賽中
  • 每周AI應用精選:虹膜識別解決方案;基於深度學習人臉識別方案等
    每周三期,詳解人工智慧產業解決方案,讓AI離你更近一步。解決方案均選自機器之心Pro行業資料庫。方案1:虹膜識別解決方案解決方案簡介:虹膜識別技術是基於眼睛中的虹膜進行身份精準識別,應用於對身份認證安全強需求或高度保密需求的場所。
  • Kaggle座頭鯨識別落下帷幕,冠軍方案解讀
    點擊我愛計算機視覺標星,更快獲取CVML新技術本文經機器之心(微信公眾號:almosthuman2014)授權轉載,禁止二次轉載機器之心專欄作者:Earhian (喬健), YourVenn (王乙衡)不久之前,Kaggle座頭鯨識別挑戰賽結束
  • 搖滾風格單品依舊魅力十足
    那就考慮一下搖滾風格的單品吧,經典的punk風同樣是魅力依舊。這個秋冬,讓我們盡情感受英倫搖滾音樂的時尚吧!復古盛行,想要喝周圍的人不同?那就考慮一下搖滾風格的單品吧,經典的punk風同樣是魅力依舊。這個秋冬,讓我們盡情感受英倫搖滾音樂的時尚吧!
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。
  • AI 影響因子 8 月份回顧:騰訊 AI Lab 再佔榜首
    在八月召開的 KDD 上,騰訊 AI Lab、京東 AI 研究院、阿里巴巴達摩院機器智能技術實驗室、京東金融 AI 實驗室、騰訊覓影均有相應得分。、視頻再定位、圖像風格轉移、目標檢測等,相較去年有較大突破。
  • IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍算法...
    多位機器人領域大咖來到現場進行特邀報告和圓桌討論,包括:義大利技術研究院科學主任 Giorgio Metta 教授、漢堡大學張建偉教授、浙江大學章國鋒教授等知名學者,演講主題從 Lifelong Learning 算法到 SLAM 均有涉獵;同時,決賽入圍團隊——海康威視、新加坡南洋理工大學、香港中文大學等也在現場向大家分享了賽事算法報告,雷鋒網 AI 開發者將賽事內容及冠軍方案整理如下
  • 「他很時尚」不要再說成「He is fashion」啦!錯了很多年了!
    他好fashion哦。2. 他是個gay。結果因為這兩句中英文混雜的表達,導致很多同學在說英語的時候被帶到了坑裡。「他很時尚」不要再說成「He is fashion」啦!錯了很多年了!1)「他很時尚」英語怎麼說?首先注意一下fashion其實是一個名詞。如果你把「他很時尚」說成He is fashion,其實表達的意思有點像他就是時尚,他就是現在的潮流,他就是神。
  • 怎樣認知時尚與風格的異同之處?
    ,而風格的發展主線是其發展本體(時尚更像被強迫,而風格則是極為自然的個人流露)。,而時尚共鳴之處則往為單品或造型相同。此處可狹義將風格理解為「自發性風格」與「模仿性風格」兩種類型,「模仿性風格」即流行時尚,其關注點在於風格於單品或造型上的外在體現,「自發性風格」則為內在流露,其重點傾嚮往往在於本體自我,本篇內提到的風格指「自發性風格」。
  • 全球三十大最佳 AI 創業公司公布
    Clarifai 提供 API 類型的工具,Clarifai 的視覺識別 API 可以識別超過 11,000 種不同內容的照片和視頻,公司同時也提供應用於特定領域的識別工具。Clarifai 有著多元化的客戶群體,從《財富》500 強公司到小型的開發團隊都是他們的服務對象,包括 Buzzfeed、Trivago、500px、StyleMePretty 等。
  • 京東618第八日:新老PC品牌平分秋色 聯想、ROG各奪三榜冠軍
    隨著越來越多消費者加入薅羊毛大軍,京東618競速榜也呈現出激烈角逐之勢,各大品牌廠商紛紛使出渾身解數,拿出壓箱底的優惠價格和首發新品,展開榜首爭霸賽。截至6月8日早11點,電腦數碼競速榜一改往日格局,ROG勢頭強勁奮起直追,一舉奪下PC及平板產品的三榜冠軍,與聯想平分秋色;華為氣勢不減,重新奪回高端輕薄本榜榜首;除此之外,森海塞爾勇猛爭鋒,拿下耳機品類榜單冠軍,小度則依然堅挺,保持在音箱品類的霸主地位。京東618逐漸逼近高 潮,競速榜還將產生更多看點!
  • 百度的CVPR2020高光時刻——22篇論文 8項冠軍 2場Workshop
    近日,全球計算機視覺頂會CVPR 2020首次召開線上大會,百度不僅入選22篇接收論文,一舉拿下8項挑戰賽冠軍,涵蓋視頻動作分析、動作識別、圖像增強、智慧城市等多個領域,還主辦了2場重量級學術Workshop,在國際舞臺盡顯中國AI硬實力。這不僅從側面反映了百度傾斜AI「新基建」的策略已有成效,也再次讓中國自有的深度學習平臺飛槳閃耀全球。