李沐團隊提出最強ResNet改進版,多項任務達到SOTA|已開源

2021-01-07 量子位

十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI

在圖像處理領域中,近年來的新模型可謂是層出不窮。

但在大多數的下遊任務中,例如目標檢測、語義分割,依舊還是用ResNet或其變體作為骨幹網絡。

而最近,亞馬遜李沐團隊便提出了堪稱「ResNet最強改進版」的網絡——ResNeSt。

從名字中不難看出,是引入了模塊化的分散注意力模塊,可以讓注意力跨特徵圖(feature-map)組。

那麼,ResNeSt到底有多強?

ResNeSt-50在224×224的ImageNet上,實現了81.13%的TOP-1精度,比之前最好的ResNet變體精度高出1%以上。簡單地用ResNeSt-50替換ResNet-50骨幹,可以讓MS-COCO上的FasterRCNNNN的mAP,從39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU,從42.1%提高到45.1%。這些改進對下遊任務有很大的幫助,包括目標檢測、實例分割和語義分割。

就連李沐也發朋友圈,呼籲小夥伴們「一鍵升級」。

更讓人驚喜的是,這項工作已開源!

最強ResNet變體:多項任務取得「大滿貫」

現在,我們具體來看下ResNeSt在具體任務中的表現。

圖像分類

第一個實驗研究了ResNeSt在ImageNet 2012數據集上的圖像分類性能。

通過將ResNeSt和其他50層和101層配置、類似複雜度的ResNet變體作比較,TOP-1精度達到了最高,如下表所示。

還與不同大小的CNN模型做了比較。

採用了256×256的ResNeSt-200, 和320×320的ResNeSt-269。對於輸入大小大於256的模型,採用雙三次上採樣策略(Bicubic upsampling strategy)。

從下表不難看出,與基於NAS發現的模型相比,ResNeSt具有更好的準確性和延遲權衡。

目標檢測

接下來,是在目標檢測上的性能。

所有的模型,都是在COCO-2017訓練集上訓練的118k圖像,並在COCO-2017驗證集上用5k圖像進行評估。

使用FPN、同步批處理歸一化(synchronized batch normalization)和圖像尺度增強,來訓練所有模型。

為了方便比較,簡單地用ResNeSt替換了vanilla ResNet骨幹,同時使用默認設置的超參數。

與使用標準ResNet的基線相比,ResNeSt的骨幹在Faster-RCNN和CascadeRCNN上,都能將平均精度提高3%左右。

這就說明ResNeSt的骨幹網絡具有良好的泛化能力,並且可以很容易地遷移到下遊任務中。

值得注意的是,ResNeSt50在Faster-RCNN和Cascade-RCNN檢測模型上都優於ResNet101,而且使用的參數明顯較少。

實例分割

在實例分割任務中,以ResNeSt-50和ResNeSt-101為骨幹,對Mask-RCNN和Cascade-Mask-RCNN模型進行評估。

實驗結果如下表所示,對於Mask-RCNNN來說,ResNeSt50的box/mask性能增益分別為2.85%/2.09%,而ResNeSt101則表現出了更好的提升,達到了4.03%/3.14%。

對於Cascade-Mask-RCNN,切換到ResNeSt50或ResNeSt101所產生的增益分別為3.13%/2.36%或3.51%/3.04%。

這就表明,如果一個模型由更多的Split-Attention模塊組成,那麼它的效果會更好。

語義分割

在語義分割下遊任務的轉移學習中,使用DeepLabV3的GluonCV實現作為基準方法。

從下表中不難看出,ResNeSt將DeepLabV3模型實現的mIoU提升了約1%,同時保持了類似的整體模型複雜度。

值得注意的是,使用ResNeSt-50的DeepLabV3模型的性能,比使用更大的ResNet-101的DeepLabV3更好。

ResNeSt:注意力分割網絡

性能如此卓越,到底是對ResNet做了怎樣的改良呢?

接下來,我們就來揭開ResNeSt的神秘面紗。

正如剛才我們提到的,ResNeSt是基於ResNet,引入了Split-Attention塊,可以跨不同的feature-map組實現feature-map注意力。

Split-Attention塊是一個計算單元,由feature-map組和分割注意力操作組成。下2張圖便描述了一個Split-Attention塊,以及cardinal group中的split-Attention。

從上面的2張圖中不難看出,都有split的影子。比如 K(k) 和 R(r) 都是超參數,也就是共計 G = K*R 組。

除此之外,也可以與SE-Net和SK-Net對比著來看。

其中,SE-Net引入了通道注意力(channel-attention)機制;SK-Net則通過兩個網絡分支引入特徵圖注意力(feature-map attention)。

ResNeSt和SE-Net、SK-Net的對應圖示如下:

研究人員介紹

李沐,亞馬遜首席科學家,加州大學伯克利分校客座助理教授,美國卡內基梅隆大學計算機系博士。

專注於分布式系統和機器學習算法的研究。他是深度學習框架MXNet的作者之一。

曾任機器學習創業公司Marianas Labs的CTO和百度深度學習研究院的主任研發架構師。

李沐有著豐富的研究成果,曾先後在國內外主流期刊上發表多篇學術論文,其中《DiFacto — Distributed Factorization Machines 》在ACM國際網絡搜索和數據挖掘(WSDM)大會上被評為最佳論文獎。

傳送門

論文地址:https://hangzhang.org/files/resnest.pdf

GitHub項目地址:https://github.com/zhanghang1989/ResNeSt

相關焦點

  • 李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源
    但在大多數的下遊任務中,例如目標檢測、語義分割,依舊還是用ResNet或其變體作為骨幹網絡。而最近,亞馬遜李沐團隊便提出了堪稱「ResNet最強改進版」的網絡——ResNeSt。從名字中不難看出,是引入了模塊化的分散注意力模塊,可以讓注意力跨特徵圖(feature-map)組。
  • 張航、李沐等人提出ResNet最強改進版:性能提高3%,參數不增
    2015 年,ResNet 橫空出世,一舉斬獲 CVPR 2016 最佳論文獎,而且在 Imagenet 比賽的三個任務以及 COCO 比賽的檢測和分割任務上都獲得了第一名。四年過去,這一論文的被引量已超 40000 次,也陸續出現了很多變體。
  • 李沐開源中文書《動手學深度學習》預覽版已上線!
    參與:李澤南、張倩來源:機器之心授權轉載,禁二次轉載近日,由 Aston Zhang、李沐等人所著圖書《動手學深度學習》放出了在線預覽版,以供讀者自由閱讀。這是一本面向在校學生、工程師和研究人員的交互式深度學習書籍。這本書是亞馬遜 MXNet 零基礎深度學習課程的重要組成部分。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。 據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。
  • 資源 | 李沐等人開源中文書《動手學深度學習》預覽版上線
    近日,由 Aston Zhang、李沐等人所著圖書《動手學深度學習》放出了在線預覽版,以供讀者自由閱讀。這是一本面向在校學生、工程師和研究人員的交互式深度學習書籍。這本書是亞馬遜 MXNet 零基礎深度學習課程的重要組成部分。課程內容推薦使用 Apache MXNet 的前端工具 Gluon 進行開發,可指導你在動手實踐的過程中學會使用簡單易讀的代碼,寫出產品級的應用。
  • 資源| 李沐等人開源中文書《動手學深度學習》預覽版上線
    近日,由 Aston Zhang、李沐等人所著圖書《動手學深度學習》放出了在線預覽版,以供讀者自由閱讀。這是一本面向在校學生、工程師和研究人員的交互式深度學習書籍。貢獻者本書的貢獻者包括多位供職於亞馬遜的科學家:李沐:亞馬遜首席科學家
  • 從ACM班、百度到亞馬遜,深度學習大牛李沐的開掛人生
    同授這門課程的還有李沐的亞馬遜同事 Alex Smola。課程內容大致是按照李沐老師的開源新書《動手學深度學習》來安排的。其實早在 CVPR 2017 上,李沐就提出了 MXNet 的重要新接口 Gluon,還撰文介紹MXNet/Gluon 的教程:https://github.com/mli/cvpr17隨後,在 2017 年 10 月,亞馬遜 AWS 和微軟共同宣布推出深度學習庫 Gluon。
  • 李沐《動手學深度學習》+ TF2.0 開源項目來了,不容錯過!
    點擊上方「AI有道」,選擇「星標」公眾號重磅乾貨,第一時間送達還記得李沐老師的
  • 李沐老師在伯克利開新課了,深度學習教材已經開源,視頻也會有的
    慄子 發自 凹非寺 量子位 報導 | 公眾號 QbitAI李沐老師的新課,這個月就要在伯克利
  • Google最新開源Inception-ResNet-v2,藉助殘差網絡進一步提升圖像...
    聯合編譯:Blake、高斐2016年8月31日,Google團隊宣布針對TensorFlow開源了最新發布的TF-slim資料庫,它是一個可以定義、訓練和評估模型的輕量級的軟體包,也能對圖像分類領域中幾個主要有競爭力的網絡進行檢驗和定義模型。
  • 華為突破封鎖,對標谷歌,開源自研算法Disout,多項任務表現更佳
    美國持續封鎖,華為的技術自研,已經深入到了AI底層算法層面上,並開始將研究成果面向業界開源。剛剛,華為諾亞實驗室開源Disout算法(地址在文末),直接對標谷歌申請專利的Dropout算法。而且,在多項任務上,華為的新算法都超過了Dropout。比如,在ImageNet上訓練的ResNet-50可以達到78.76%的準確率,而谷歌Dropout系列方法僅為76.8%。
  • ResNeXt:何愷明 Facebook 升級 ResNet,提出神經網絡新維度
    ResNeXt 採用多分支的同構結構,只需要設定較少的超參數,並且顯露出在深度、寬度之外神經網絡的另一個衡量指標——「基數」(cardinality)。本文從何愷明和他的同事 ResNeXt 論文開始,介紹最近開源的 ResNeXt 的一個Torch 實現。本文後附微軟亞洲研究院實習生趙黎明寫的分析文章,探索了「深度」在神經網絡當中究竟帶來了什麼。
  • 實戰入門深度學習,李沐中文新書贈送
    2018 年底,機器之心介紹了李沐等人開源的中文書籍《動手學深度學習》。
  • 華為開源預訓練語言模型「哪吒」:提升多項中文NLP任務性能
    雷鋒網 AI 開發者按:一個月前,在「AICon 全球人工智慧與機器學習技術大會」上,華為諾亞方舟實驗首席科學家劉群剛分享了新發布的中文預訓練語言模型 NEZHA(哪吒);就在這兩天,NEZHA 已在 Github 上開源,同時開源的還有壓縮 BERT 模型「TinyBERT」,它在推理時大小可縮小 7.5 倍,並且速度加快 9.4 倍。
  • 騰訊開源業內最大多標籤圖像數據集,附ResNet-101模型
    不僅要開源多標籤圖像數據集ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101。業內最大規模值得注意的是,這次開源的ML-Images包含了1800萬圖像和1.1萬多種常見物體類別,在業內已公開的多標籤圖像數據集中,規模最大,一般科研機構及中小企業的使用場景,應該夠了。
  • 目標跟蹤最強算法開源:商湯SiamRPN系列解讀
    雷鋒網(公眾號:雷鋒網) AI 科技評論消息,日前,商湯科技智能視頻團隊首次開源其目標跟蹤研究平臺 PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法,以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將獨家解讀目標跟蹤最強算法 SiamRPN 系列。
  • PyTorch版《動手學深度學習》開源了,最美DL書遇上最贊DL框架
    那就用 PyTorch 版的《動手學深度學習》吧,零基礎也能入門 DL。李沐等人的開源中文書《動手學深度學習》現在有 PyTorch 版實現了。不論是原書中的示例代碼,還是實戰項目,原來的 MXNet 都可以無縫轉化到 PyTorch 代碼。
  • 全新版本,李沐《動手學深度學習》TF2.0版本來了
    機器之心整理參與:一鳴還記得李沐老師的《動手學深度學習》嗎?近日,該書的 TF2.0 代碼復現項目來了。UC 伯克利李沐的《動手學深度學習》開源書一經推出便廣受好評。很多開發者使用了書的內容,並採用各種各樣的深度學習框架將其復現。據機器之心所知,現在已有 MXnet(原版)和 PyTorch 版本。