NeurIPS 2020 | Balanced-Meta Softmax: 長尾視覺識別方案解讀

2020-12-01 健康界

我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。

點擊查看

導讀:在NeurIPS 2020上,商湯新加坡團隊提出的Balanced-Meta Softmax (BALMS), 針對真實世界中常見的長尾數據分布提出了新的視覺識別方案。在優化目標方面,BALMS 提出一種新的損失函數,Balanced Softmax,來修正長尾設定下因訓練與測試標籤分布不同而導致的偏差。在優化過程方面,BALMS提出 Meta Sampler來自動學習最優採樣率以配合Balanced Softmax,避免過平衡問題。BALMS在長尾圖像分類與長尾實例分割的共四個數據集上取得SOTA表現。這項研究也被收錄為ECCV LVIS workshop的spotlight。


論文名稱: Balanced Meta-Softmax for Long-Tailed Visual Recognition

問題和挑戰


真實世界中的數據分布大多符合長尾分布:常見類比佔據了數據集中的主要樣本,而大量的罕見類別只在數據集中少量出現。例如一個動物圖片數據集中,寵物貓的圖片數量可能遠遠超過熊貓的圖片數量。




由於長尾現象對算法落地造成了很大的挑戰,視覺社區對這一問題的關注日漸增加,近年陸續推出了一些長尾數據集,例如大規模實例分割數據集LVIS。我們發現長尾問題的難點主要存在於以下兩個方面:

1)優化目標。根據長尾問題的設定,訓練集是類別不均衡的。然而主流的指標,如mean AP (mAP),衡量全部類別上的平均精度,因此鼓勵算法在類別平衡的測試集上取得較好的表現。這導致了訓練與測試時標籤分布不同的問題,我們稱之為標籤分布遷移。




2)優化過程。罕見類別在模型訓練過程中很少出現,因此無法在優化過程中提供足夠的梯度。這使得即使我們有了一個較好的優化目標,也很難使模型收斂到對應的全局最優。

方法介紹


1. Balanced Softmax

Softmax函數常常被用來將模型輸出轉化為物體屬於每個類別的條件概率。



應用貝葉斯定理可以發現常規的Softmax回歸會受到標籤分布遷移的影響,並作出帶偏差的估計。這個偏差導致Softmax回歸出的分類器更傾向於認為樣本屬於常見類別。



舉一個簡單的例子,考慮這樣一個任務:通過性別來分類貓和狗。這個任務看起來是無法完成的,因為我們知道性別在貓和狗上是均勻分布的。無論貓還是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性別我們無法區別貓和狗。

有趣的是,當我們的訓練數據是類別不平衡的時,比如有90%的貓和10%的狗,我們的估計就會出現偏差:這時無論是雄性還是雌性,我們都會傾向於認為它是一隻貓。在這樣的訓練數據上學習到的分類器就會天然帶有對常見類別的偏愛。



為了避免這個偏差,我們從多項分布的Exponential Family形式出發重新對Softmax進行了推導並顯式考慮了標籤分布遷移,得到了適合長尾問題的Balanced Softmax。同時,我們發現Balanced Softmax可以近似地最小化長尾設定下的泛化錯誤上界。



為了分析Balanced Softmax的效果,我們將模型在測試集上預測的分數在每個類別上累加,用來計算模型預測的標籤分布。理想情況下,模型在測試集上預測出的標籤分布應該是平衡的。在下圖中我們對不同模型的預測類別進行了可視化,類別按照出現頻率降序排列,第0類為出現次數最多的類。我們發現藍色線代表的常規Softmax明顯地偏向於常見類別,橙色線代表的Equalization Loss [1] 通過去除某閾值以下罕見類別的負樣本梯度緩解了這一問題,而紅色線代表的Balanced Softmax則進一步達到了最平衡的預測類別分布。



2. 元採樣器Meta Sampler

雖然我們得到了一個適合長尾問題的理想的優化目標,優化過程本身依然充滿挑戰:罕見類別只能在訓練中出現極少次數,因此無法很好地貢獻到訓練梯度。解決這一問題的最常見的方法是類別均衡採樣 (CBS)[2],也就是對每個類別採樣同樣數量的樣本來組成訓練批次。然而,實驗表明直接將Balanced Softmax與CBS一起使用會導致模型表現下降,於是我們對兩者一起使用時的梯度進行了分析。在假設接近收斂時,我們有:



理想情況下每個類別的梯度的權重應和類別內樣本數量成反比,但上式中的權重為和類別內樣本數量成平方反比。我們將這個現象稱為過平衡問題。


下圖展示了一個對過平衡問題的可視化。這是一個類別不平衡的二維數據三分類問題,三個類別分別為紅、黃、藍,樣本數量分別為10000、100和1。可以發現Balanced Softmax和CBS一起使用時,優化過程會被藍色的罕見類別主導。



為了解決過平衡問題,我們提出了Meta Sampler(元採樣器),一種可學習版本的CBS。Meta Sampler使用元學習的方法,顯式地學習當前最佳的採樣率,從而更好地配合Balanced Softmax的使用。



下圖展示了我們對不同模型預測的標籤分布進行的可視化。其中,紫色線代表的Balanced Softmax與CBS的組合由於過平衡問題,明顯地偏向於尾部類別。而紅色線代表的Balanced Softmax與Meta Sampler的組合則很好地解決了這一問題,最終取得了最為均衡的標籤分布。



實驗結果


我們在圖像分類(CIFAR-10/100-LT,ImageNet-LT,Places-LT)與實例分割(LVIS-v0.5)兩個任務上分別進行了實驗驗證。實驗結果顯示了Balanced Softmax和Meta Sampler對模型表現都有明顯的貢獻。兩者的組合,Balanced Meta-Softmax (BALMS),在這兩個任務上都達到或超過了SOTA結果,尤其在最具挑戰性的LVIS數據集上大幅超過了之前的SOTA結果。

這項研究也被收錄為ECCV LVIS workshop的Spotlight,關於LVSI-v1.0的相關實驗結果可以在LVSI workshop
主頁上找到(Team Innova)。





結語


BALMS對長尾問題下的概率建模以及採樣策略進行了探討。我們發現常用的Softmax回歸在存在標籤分布遷移時會出現估計偏差,並提出了Balanced Softmax來避免這個偏差。另一方面,我們發現類別均衡採樣器在與Balanced Softmax一起使用時會導致過平衡問題,於是提出元採樣器來顯式學習最優採樣策略。我們的解決方案在長尾圖像分類與長尾實例分割任務上均得到了驗證。歡迎關注我們的開原始碼庫,希望BALMS可以成為未來長尾學習的良好基線。

References

[1] Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, and Junjie Yan. Equalization loss for long-tailed object recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.
[2] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and Yannis Kalantidis. Decoupling representation and classifier for long-tailed recognition. International Conference on Learning Representations, abs/1910.09217, 2020.

相關焦點

  • Kaggle座頭鯨識別落下帷幕,冠軍方案解讀
    本文主要介紹了冠軍團隊的解決方案。圖註:Kaggle座頭鯨識別挑戰賽 leaderboard為了幫助鯨魚保護,科學家們使用照片監視系統 (Photo Surveillance Systems) 來監視海洋活動。他們使用鯨魚尾巴這一獨一無二的標記來在連續的圖像中識別鯨魚,並對它們的活動進行細緻地分析。
  • 基礎科普:如何解讀長尾理論
    筆者有幸閱讀了《長尾理論》第4版,書名副標題已經從「別老掂著從榜頂的幾個巨無霸裡多榨幾百萬來」更改為「為什麼商業的未來是小眾市場」。本文旨在讓讀者了解長尾市場以及如何在產品中運用長尾理論。 一)長尾理論是什麼?
  • 睡前經濟學|識別長尾效應,如何花小力氣研究「大事」?
    AI如何才能取代保安目前,商湯的解決方案已應用在手機人臉解鎖、酒店人臉查驗等領域,但更多細分領域還有待發掘。徐立舉例商湯辦公樓下的一張照片,路上行人熙熙攘攘。如果用行人檢測算法,能夠把圖像中所有行人都有效標識出來,但如果要真正對圖像中所有事情都進行分析,可以發現世界遠遠要比這個複雜——所有的物體、行人、交通信號燈、指示牌組合在了一起。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。
  • 深度圖高斯過程 | NeurIPS 2020論文分享第一期
    為了幫助大家了解NeurIPS最新研究成果和動態,我們特別邀請到清華大學伯克利深圳研究生院李乃琦博士、清華大學深圳國際研究生院李文杰博士作客AI研習社NeurIPS2020系列論文解讀直播間,為大家詳細介紹他們被收錄的論文情況,兩位嘉賓分享完還有問答環節,歡迎大家積極參與互動,一起探討《深度圖高斯過程》。
  • 36氪研究|進擊的工業3D視覺:消費電子成最大市場,長尾領域規模可至...
    工業3D視覺落地最廣的領域是消費電子,其次是汽車製造、以及物流、醫藥、快消等長尾領域。正常發展速度下,5年內,工業3D視覺將成長為千億人民幣的市場。 事實上,這也一定程度上反映了當前工業3D視覺行業的現狀。當前,工業場景下的產品類型基本可分為標準化產品、設備型/集成方案兩大種。由於國內大部分廠商扮演了集成商的角色,最終輸出的是軟硬體一體的集成方案,產品形態主要是整套設備上搭載3D視覺技術。其中相機是硬體系統的關鍵,成本約佔整個硬體系統40%。
  • 工業視覺行業怎麼樣,工業視覺識別系統廠家
    事實上,我國在工業領域對機器視覺的應用時間並不久。然而隨著製造業企業對自動化、智能化需求的不斷提升,一大批機器視覺企業湧現。那麼,讓我們一起來看看都有哪些企業已經涉足這一領域,以及他們的發展情況如何。中國機器視覺的中高端市場被一些有深厚行業背景的國際巨頭佔據,國產率低。
  • 嚴禁一稿多投:NeurIPS 2019剛剛斃掉了19篇論文
    我們還識別出了一些疑似出現重複的論文,並指定領域主席進行仔細調查,以幫助我們確定一個公平的解決方案。此外,大會還對所有相同作者提交至 NeurIPS 的論文中運行相似度腳本,從而突出顯示具有明顯重複的論文案例。大會主席並沒有親自檢查這些重複論文,而是指定相同的評審者和領域主席進行審核。
  • 網頁Meta標籤的用法總結
    =yes 開啟把數字轉化為撥號連結,默認開啟email 告訴設備不識別郵箱,點擊之後不自動發送 email=no 禁止作為郵箱地址 email=yes 開啟把文字默認為郵箱地址,默認情況開啟adress adress=no 禁止跳轉至地圖
  • 楊澤霖:發力人工智慧,做基於深度學習的視覺解決方案
    初次接觸深度學習算法 大三創立公司    2015年,當楊澤霖第一次接觸到深度學習算法時,就敏銳地認識到這將成為一種革命性技術,而圖像識別將成為深度學習算法的第一個發力點。經過多方調研,21歲的楊澤霖同幾個志同道合的夥伴,開始了他們的創業之路——將深度學習技術帶入工業圖像識別領域,服務傳統行業。
  • NeurIPS 2019 程序委員會主席發聲明:19 篇論文因一稿多投被拒收!
    正如我們在徵文啟事(https://neurips.cc/Conferences/2019/CallForPapers?source=post_page)中所討論的,NeurIPS 會與其它會議協作,從而甄別出一稿兩投現象。這些會議在主題領域和審稿期間上都與 NeurIPS 有所重疊。我們希望 NeurIPS 會議的內容是原創且新穎的。
  • RBF-Softmax:讓模型學到更具表達能力的類別表示
    這是一篇商湯科技的ECCV2020
  • 從最優化的角度看待 Softmax 損失函數
    加入極市專業CV交流群,與6000+來自騰訊,華為,百度,北大,清華,中科院等名企名校視覺開發者互動交流!
  • 「長尾效應」在社會化媒體中的價值與運用
    對於社會 化媒體和社交媒體,「長尾效應」成為一個越來越值得研究的課題。 為了提高信息的有效閱讀、避免信息堵塞,同時也是提高「長尾效應」,社會化媒體、社交媒體與一些第三方應用也正在摸索一定的解決方案:社會化媒體:1) 細分內容,產生更細緻的分類信息聚合。以輕博客為代表的一些社會化媒體將目標市場明確定位在分眾化信息上,專門針對分眾信息的藍海進行傳播拓展。
  • softmax 損失函數 & 參數更新詳解
    要點回歸softmax進階多分類 - 基礎理解softmax多分類實現圖解softmax 損失函數產生及理解對參數求偏導推導及更新要點回歸:邏輯回歸二分類用sigmoid變換成預測單個「概率」,損失函數為交叉熵,用梯度下降求解參數wbsoftmax多分類用softmax
  • 描述標籤(Meta Description)的SEO優化
    meta description是Google排名因素之一嗎?在2009年9月時, Google公告不使用關鍵詞(keywords)作為排名的因素之一,因為有太多填塞關鍵詞的作弊狀況出現。那meta description(描述標籤)呢?它是否是排名因素之一?
  • 自動駕駛的未來,是雷射雷達還是視覺識別?
    事後經分析指出,由於大貨車是白色,有比較強烈的陽光反射,影響了這輛特斯拉Model 3的攝像頭識別。 除此之外,調查顯示特斯拉Model 3的視覺算法訓練數據存在局限性。
  • OCHIS講座精彩全記錄 神經影像薈萃分析 (Neuroimaging Meta-analysis)
    KDA和ALE的卷積函數不同,所以得出檢驗的效應具有不同的解讀。下面我們一起來看看怎麼理解不同方法新生成的大腦激活圖,以及我們該用什麼平臺去實現meta分析。圖 13基於坐標的神經影像meta分析方法(CBMA)的局限性主要包括:不同處理方法得出的效應量意義並不一致,需要細心解讀,效應量和空間的關係的置信區間需要仔細考慮
  • NeurIPS提前看|四篇論文,一窺元學習的最新研究進展
    本文對本次接收的元學習論文進行了梳理和解讀。2019 年 NeurIPS 將於 12 月 8 日至 14 日在加拿大溫哥華舉行。NeurIPS 今年共收到投稿 6743 篇,其中接受論文 1429 篇,接受率達到了 21.1%。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    本文以計算機視覺的重要概念為線索,介紹深度學習在計算機視覺任務中的應用,包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成和風格遷移、人臉識別、圖像檢索、目標跟蹤等。網絡壓縮(network compression)儘管深度神經網絡取得了優異的性能,但巨大的計算和存儲開銷成為其部署在實際應用中的挑戰。