李沐團隊提出最強ResNet改進版,多項任務達到SOTA|已開源

2020-12-17 量子位

十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI

在圖像處理領域中,近年來的新模型可謂是層出不窮。

但在大多數的下遊任務中,例如目標檢測、語義分割,依舊還是用ResNet或其變體作為骨幹網絡。

而最近,亞馬遜李沐團隊便提出了堪稱「ResNet最強改進版」的網絡——ResNeSt

從名字中不難看出,是引入了模塊化的分散注意力模塊,可以讓注意力跨特徵圖(feature-map)組。

那麼,ResNeSt到底有多強?

ResNeSt-50在224×224的ImageNet上,實現了81.13%的TOP-1精度,比之前最好的ResNet變體精度高出1%以上。簡單地用ResNeSt-50替換ResNet-50骨幹,可以讓MS-COCO上的FasterRCNNNN的mAP,從39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU,從42.1%提高到45.1%。這些改進對下遊任務有很大的幫助,包括目標檢測、實例分割和語義分割。

就連李沐也發朋友圈,呼籲小夥伴們「一鍵升級」。

更讓人驚喜的是,這項工作已開源!

最強ResNet變體:多項任務取得「大滿貫」

現在,我們具體來看下ResNeSt在具體任務中的表現。

圖像分類

第一個實驗研究了ResNeSt在ImageNet 2012數據集上的圖像分類性能。

通過將ResNeSt和其他50層和101層配置、類似複雜度的ResNet變體作比較,TOP-1精度達到了最高,如下表所示。

還與不同大小的CNN模型做了比較。

採用了256×256的ResNeSt-200, 和320×320的ResNeSt-269。對於輸入大小大於256的模型,採用雙三次上採樣策略(Bicubic upsampling strategy)。

從下表不難看出,與基於NAS發現的模型相比,ResNeSt具有更好的準確性和延遲權衡。

目標檢測

接下來,是在目標檢測上的性能。

所有的模型,都是在COCO-2017訓練集上訓練的118k圖像,並在COCO-2017驗證集上用5k圖像進行評估。

使用FPN、同步批處理歸一化(synchronized batch normalization)和圖像尺度增強,來訓練所有模型。

為了方便比較,簡單地用ResNeSt替換了vanilla ResNet骨幹,同時使用默認設置的超參數。

與使用標準ResNet的基線相比,ResNeSt的骨幹在Faster-RCNN和CascadeRCNN上,都能將平均精度提高3%左右。

這就說明ResNeSt的骨幹網絡具有良好的泛化能力,並且可以很容易地遷移到下遊任務中。

值得注意的是,ResNeSt50在Faster-RCNN和Cascade-RCNN檢測模型上都優於ResNet101,而且使用的參數明顯較少。

實例分割

在實例分割任務中,以ResNeSt-50和ResNeSt-101為骨幹,對Mask-RCNN和Cascade-Mask-RCNN模型進行評估。

實驗結果如下表所示,對於Mask-RCNNN來說,ResNeSt50的box/mask性能增益分別為2.85%/2.09%,而ResNeSt101則表現出了更好的提升,達到了4.03%/3.14%。

對於Cascade-Mask-RCNN,切換到ResNeSt50或ResNeSt101所產生的增益分別為3.13%/2.36%或3.51%/3.04%。

這就表明,如果一個模型由更多的Split-Attention模塊組成,那麼它的效果會更好。

語義分割

在語義分割下遊任務的轉移學習中,使用DeepLabV3的GluonCV實現作為基準方法。

從下表中不難看出,ResNeSt將DeepLabV3模型實現的mIoU提升了約1%,同時保持了類似的整體模型複雜度。

值得注意的是,使用ResNeSt-50的DeepLabV3模型的性能,比使用更大的ResNet-101的DeepLabV3更好。

ResNeSt:注意力分割網絡

性能如此卓越,到底是對ResNet做了怎樣的改良呢?

接下來,我們就來揭開ResNeSt的神秘面紗。

正如剛才我們提到的,ResNeSt是基於ResNet,引入了Split-Attention塊,可以跨不同的feature-map組實現feature-map注意力。

Split-Attention塊是一個計算單元,由feature-map組和分割注意力操作組成。下2張圖便描述了一個Split-Attention塊,以及cardinal group中的split-Attention。

從上面的2張圖中不難看出,都有split的影子。比如 K(k) 和 R(r) 都是超參數,也就是共計 G = K*R 組。

除此之外,也可以與SE-Net和SK-Net對比著來看。

其中,SE-Net引入了通道注意力(channel-attention)機制;SK-Net則通過兩個網絡分支引入特徵圖注意力(feature-map attention)。

ResNeSt和SE-Net、SK-Net的對應圖示如下:

研究人員介紹

李沐,亞馬遜首席科學家,加州大學伯克利分校客座助理教授,美國卡內基梅隆大學計算機系博士。

專注於分布式系統和機器學習算法的研究。他是深度學習框架MXNet的作者之一。

曾任機器學習創業公司Marianas Labs的CTO和百度深度學習研究院的主任研發架構師。

李沐有著豐富的研究成果,曾先後在國內外主流期刊上發表多篇學術論文,其中《DiFacto — Distributed Factorization Machines 》在ACM國際網絡搜索和數據挖掘(WSDM)大會上被評為最佳論文獎。

傳送門

論文地址:https://hangzhang.org/files/resnest.pdf

GitHub項目地址:https://github.com/zhanghang1989/ResNeSt

相關焦點

  • 李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源
    但在大多數的下遊任務中,例如目標檢測、語義分割,依舊還是用ResNet或其變體作為骨幹網絡。而最近,亞馬遜李沐團隊便提出了堪稱「ResNet最強改進版」的網絡——ResNeSt。從名字中不難看出,是引入了模塊化的分散注意力模塊,可以讓注意力跨特徵圖(feature-map)組。
  • 張航、李沐等人提出ResNet最強改進版:性能提高3%,參數不增
    2015 年,ResNet 橫空出世,一舉斬獲 CVPR 2016 最佳論文獎,而且在 Imagenet 比賽的三個任務以及 COCO 比賽的檢測和分割任務上都獲得了第一名。四年過去,這一論文的被引量已超 40000 次,也陸續出現了很多變體。
  • 如何看待國內開源現狀?賈揚清、李沐、陳天奇等大牛如是說
    李沐:開源的好與壞我個人歷程就是從在個人主頁上掛 matlap zip(鄙視鏈底端)→ 把源文件放到 github → 實驗代碼一開始就是放在 github 上 → 開發工具放 github 上 → 創建 organization 來建設社區 → 先開原始碼然後再進自己公司產品。
  • 李沐《動手學深度學習》+ TF2.0 開源項目來了,不容錯過!
    點擊上方「AI有道」,選擇「星標」公眾號重磅乾貨,第一時間送達還記得李沐老師的
  • 李沐《動手學深度學習》重磅更新!新增PyTorch和TensorFlow實現,還有中文版
    網址:http://d2l.ai/簡介李沐老師的《動手學深度學習》自一年前發布以來廣受歡迎,即使所有內容都提供了免費的網頁和PDF版,仍然有大量讀者購買實體書。實體版曾一度在計算機類新書裡排名前三。在過去一年裡李沐老師團隊主要關注在英文版的開發,包括了19年年初在伯克利用本書作為教材教授深度學習,之後重構了代碼,改成了基於大家更喜愛的Numpy接口。同時我團隊不斷改進和加入新的內容,包括全新的深度學習數學、推薦系統、生成對抗網絡,並重寫了自然語言處理,加入包括BERT在內的新進展。目前的英文版已經長達一千頁。
  • 李沐團隊半年離開六人,MxNet是否英雄落幕?
    作者 | 叢末、蔣寶尚編輯 | 賈偉AI 科技評論消息:昨日,據知乎網友爆料,亞馬遜AI李沐團隊今年初至今已經離開6人了。考慮到李沐團隊一共20名正式員工,以及一個研究團隊招新的嚴格要求和團隊培養成本,6人離去對於一個團隊來說確實是一種重大的人員流失。在知乎上,有兩種回應,一種傾向於自然選擇,即類似於末尾淘汰制,對於達不到培養要求的研究人員給予「勸退」,另一種傾向於「精英淘汰」, 即學術領域的精英,一些真正德才兼備的精英人才往往會遭冷遇、排擠甚至打擊、壓制。
  • 從ACM班、百度到亞馬遜,深度學習大牛李沐的開掛人生
    同授這門課程的還有李沐的亞馬遜同事 Alex Smola。課程內容大致是按照李沐老師的開源新書《動手學深度學習》來安排的。其實早在 CVPR 2017 上,李沐就提出了 MXNet 的重要新接口 Gluon,還撰文介紹MXNet/Gluon 的教程:https://github.com/mli/cvpr17隨後,在 2017 年 10 月,亞馬遜 AWS 和微軟共同宣布推出深度學習庫 Gluon。
  • 知乎熱議:亞馬遜 AI 團隊近期大批人員離職?李沐親自澄清事實!
    李沐本人是如何親答的?實名已離職員工如何表態? 近日,「如何看待亞馬遜 AI 李沐團隊大批人員離職?」成為知乎DL話題下的熱門問題,獲得了1500關注者和67萬瀏覽量。
  • 李沐團隊人員離職,MxNet 英雄落幕?賈揚清:關鍵能否解決新痛點
    作者 | 叢末、蔣寶尚編輯 | 賈偉AI 科技評論消息:昨日,據知乎網友爆料,亞馬遜AI李沐團隊今年初至今已經離開6人了。考慮到李沐團隊一共20名正式員工,以及一個研究團隊招新的嚴格要求和團隊培養成本,6人離去對於一個團隊來說確實是一種重大的人員流失。
  • 李沐團隊半年離開六人,MxNet是否英雄落幕?賈揚清:關鍵能否解決新...
    作者 | 叢末、蔣寶尚編輯 | 賈偉AI 科技評論消息:昨日,據知乎網友爆料,亞馬遜AI李沐團隊今年初至今已經離開6人了。考考慮到李沐團隊一共20名正式員工,以及一個研究團隊招新的嚴格要求和團隊培養成本,6人離去對於一個團隊來說確實是一種重大的人員流失。
  • 全新版本,李沐《動手學深度學習》TF2.0版本來了
    還記得李沐老師的《動手學深度學習》嗎?近日,該書的 TF2.0 代碼復現項目來了。
  • 實戰入門深度學習,李沐中文新書贈送
    2018 年底,機器之心介紹了李沐等人開源的中文書籍《動手學深度學習》。
  • | 李沐技術分享會
    這是眾多崇敬李沐教授的人送給他的稱呼之一。  雖說,科技大神千千萬,「沐神」確是獨一份。之前知乎上出現一個話題「孩子今年開學上小學五年級了,現在報課外班學 Tensorflow 還來得及嗎?難道非要讓李沐教授親自跟大家嘮嘮,才能給你點勇氣?好的,這次他來了!
  • 騰訊已開源高精度人臉檢測算法DSFD
    任務介紹人臉檢測算法是在圖像上檢測出人臉的位置(通常以矩形框形式輸出),是人臉配準、人臉屬性識別、人臉核身、人臉檢索等技術的基礎。隨著人工智慧行業的發展,人臉相關技術在社交娛樂、智慧零售、網際網路金融等領域得到了越來越廣泛的應用,同時也對人臉檢測技術提出了更多的挑戰。
  • 快速訓練殘差網絡 ResNet-101,完成圖像分類與預測,精度高達 98%|...
    百度詞條給出了一個簡明的定義:遷移學習是一種機器學習方法,就是把為任務 A 開發的模型作為初始點,重新使用在為任務 B 開發模型的過程中。以我們的圖像分類任務為例:假如任務A的任務是貓狗分類,任務B是要對老虎、獅子進行分類。可以發現,任務 A 和任務 B 存在大量的共享知識,比如這些動物都可以從毛髮,體型,形態等方面進行辨別。
  • 《巫師3:增強版》MOD更新至最終版 多項改進
    MOD《巫師3:增強版》的製作者『Sir Reaperrz Custard McButtfuck Esq』最近更新了他的MOD,這個V3.30版本將是這款MOD的最終版,一起來了解一下。《巫師3:增強版》引入了許多新的狀態機制,比如攻擊和躲避速度、鎮定、腎上腺素、活力等等。這些屬性都是相互關聯的,對恢復率、價值等許多其他因素都有影響。此外,這個MOD對劍術進行了徹底改造,加入了一些列新的戰鬥動作和動畫效果,遊戲中的戰鬥系統得到了相當大的優化。《巫師3:增強版》上一次更新是在今年1月份的2.60版。新版在此基礎上又做了多項改進和增強。
  • 華為諾亞、北大等提出IPT模型,刷榜多項底層視覺任務
    例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等,這些跨界模型多應用於圖像識別、目標檢測等高層視覺任務。而華為、北大、悉大以及鵬城實驗室近期提出了一種新型預訓練 Transformer 模型——IPT(Image Processing Transformer),用於完成超解析度、去噪、去雨等底層視覺任務。
  • 騰訊雲虛擬化技術團隊:用硬核貢獻表達開源態度
    根據全球最大開原始碼託管平臺 GitHub 年度報告數據顯示,截至2019 年 GitHub 託管倉庫已有1.4 億,2019 年新增倉庫400 萬個,創建第一個項目的用戶比2018 年增加44%,130 萬開發者對開源做出首次貢獻。SourceClear 調查報告指出開源項目已呈現指數級增長趨勢,2026 年預計超過3 億。
  • Facebook等提出實時3D人臉姿態估計新方法,代碼已開源!
    基於二者的兩步走方法是很多人臉推理任務的關鍵所在,如 3D 重建。這種方法的處理過程通常可以表述為:首先執行人臉檢測,然後在每個檢測到的人臉邊界框中執行關鍵點檢測。接下來,將檢測到的關鍵點與參考 2D 圖像或 3D 模型上對應的理想位置進行匹配,然後使用標準方法求解對齊變換。因此,「人臉對齊」和「關鍵點檢測」這兩個術語有時可以互換使用。
  • 我們跑到PaloAlto,和MXNet作者李沐聊了兩小時|AAAI2017見聞
    從百度少帥到 CMU 博士再到 MXNet, 李沐的履歷儼然自帶距離感。但當穿著耐克灰色套頭衫和牛仔褲的李沐坐在我們面前侃侃而談時,AI 君在會面前的擔心一掃而光。嚴格來說這並不是一次採訪,更像是朋友間的閒聊。經李沐老師的同意,我們整理出了下面這篇文章,其中涉及的內容僅代表他的個人觀點,特此聲明。