21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

2021-01-11 手機鳳凰網

機器之心報導

參與:一鳴、思

60+模型架構,歷年十幾個 SOTA 模型,這 21 秒帶你縱覽圖像識別的演進歷史。

ImageNet 是計算機視覺領域常用的數據集之一。在圖像分類、目標分割和目標檢測中有著無法撼動的地位。ImageNet 最初是由李飛飛等人在 CVPR 2009 年發表的論文——「ImageNet: A Large-Scale Hierarchical Image Database」中發布的。多年來,ImageNet 的相關論文對業內有極大的影響。截至到當前,Google Scholar 上展示該論文有 12224 的引用量。這篇論文在 ImageNet 發布十周年之際,於 CVPR 2019 大會上獲得了經典論文獎。ImageNet 本身則是一個海量的帶標註圖像數據集。通過眾包等方式進行標註,從 2007 年開始直到 2009 年完成。ImageNet 有超過 1500 萬張圖片,僅汽車圖像的數量達到了 70 萬張,類別數量為 2567 個。如此巨量、 標註錯誤極低且免費的數據集,已經成為圖像處理領域研究者首先接觸的數據集之一。毫不誇張的說,ImageNet 是圖像處理算法的試金石。從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。2017 年後的比賽由 Kaggle 社區主持。自 2012 年 Hinton 等的團隊提出 AlexNet 開始,每年都有層出不窮的模型希望在 ImageNet 排行榜上取得一席之地。近日,PaperWithCode 網站發布了一段 21 秒的視頻,在 ImageNet 發布十年的時刻,總結了歷年來排行榜上取得一定效果的模型。

如上展示了 13 到 19 年的分類任務 SOTA 效果演進,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 結構、殘差模塊等等。Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet機器之心根據視頻和網站內容進行了整理。以下為一些著名的模型、發布時間、Top-1 準確率、參數量,以及相關的論文連結。發布時取得 SOTA 的模型名以紅色字體標出。這是一堆耳熟能詳的模型

AlexNet 提出時間:2012/9 Top-1 準確率:62.5% 參數量:60M 論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

AlexNet 的架構示意圖。

ZFNet 提出時間:2013/11 Top-1 準確率:64% 論文地址:https://arxiv.org/pdf/1311.2901v3.pdf Inception V1 提出時間:2014/9 Top-1 準確率:69.8% 參數量:5M 論文地址:https://arxiv.org/pdf/1409.4842v1.pdf VGG-19 提出時間:2014/9 Top-1 準確率:74% 參數量:144M 論文地址:https://arxiv.org/pdf/1409.1556v6.pdf PReLU-Net 提出時間:2015/2 Top-1 準確率:75.73% 論文地址:https://arxiv.org/pdf/1502.01852v1.pdf Inception V3 提出時間:2015/12 Top-1 準確率:78.8% 參數量:23.8M 論文地址:https://arxiv.org/pdf/1512.00567v3.pdf

Inception V3。

ResNet 152 提出時間:2015/12 Top-1 準確率:78.6% 論文地址:https://arxiv.org/pdf/1512.03385v1.pdf

ResNet 的基本模塊。

Inception ResNet V2 提出時間:2016/2 Top-1 準確率:80.1% 論文地址:https://arxiv.org/pdf/1602.07261v2.pdf DenseNet-264 提出時間:2016/8 Top-1 準確率:79.2% 論文地址:https://arxiv.org/pdf/1608.06993v5.pdf

增長率為 4 的 DenseNet 架構。

ResNeXt-101 64×4 提出時間:2016/11 Top-1 準確率:80.9% 參數量:83.6M 論文地址:https://arxiv.org/pdf/1611.05431v2.pdf PolyNet 提出時間:2016/11 Top-1 準確率:81.3% 參數量:92M 論文地址 https://arxiv.org/pdf/1611.05725v2.pdf DPN-131 提出時間:2017/7 Top-1 準確率:81.5% 參數量:80M 論文地址:https://arxiv.org/pdf/1707.01629v2.pdf NASNET-A(6) 提出時間:2017/7 Top-1 準確率:82.7% 參數量:89M 論文地址:https://arxiv.org/pdf/1707.07012v4.pdf

利用神經架構搜索(NAS)方法獲得的模型(右圖),相比左邊的模型減少了參數量,效果得到了提升。

PNASNet-5 提出時間:2017/12 Top-1 準確率:82.9% 參數量:86.1M 論文地址:https://arxiv.org/pdf/1712.00559v3.pdf MobileNetV2 提出時間:2018/1 Top-1 準確率:74.7% 參數量:6.9M 論文地址:https://arxiv.org/pdf/1801.04381v4.pdf AmoebaNet-A 提出時間:2018/2 Top-1 準確率:83.9% 參數量:469M 論文地址:https://arxiv.org/pdf/1802.01548v7.pdf ResNeXt-101 32×48d 提出時間:2018/5 Top-1 準確率:85.4% 參數量:829M 論文地址:https://arxiv.org/pdf/1805.00932v1.pdf ShuffleNet V2 2× 提出時間:2018/7 Top-1 準確率:75.4% 參數量:7.4M 論文地址:https://arxiv.org/pdf/1807.11164v1.pdf EfficientNet 提出時間:2019/5 Top-1 準確率:84.4% 參數量:66M 論文地址:https://arxiv.org/pdf/1905.11946v2.pdf

EfficientNet 論文中的架構對比。a)基線模型;b)- d)分別為對圖像寬度、深度和解析度的掃描架構;e)論文提出的可以將所有掃描架構融合在一起的網絡結構。

FixResNeXt-101 32×48d 提出時間:2019/6 Top-1 準確率:86.4% 參數量:829M 論文地址:https://arxiv.org/pdf/1906.06423v2.pdf

你發現了某些規律?從屠榜模型來看,取得 SOTA 的模型參數量在逐年增加。從有 60M 參數量的 AlexNet 到有著 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。但是也有很意外的情況,比如 DenseNet 獲得了 CVPR 2017 的最佳論文,但是 DenseNet 並沒有達到 SOTA 的效果。此外,名聲在外的 ResNet 也僅僅是接近 2015 年的 SOTA 模型 Inception V3。但是,沒有取得 SOTA 並不代表這些模型不好。它們給了後續工作很大的啟發。值得注意的是,從 2018 年開始,縮小模型參數量的研究逐漸增多。可以看到有 MobileNet、ShuffleNet 等,可惜在性能上犧牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,僅有 66M 的參數量,但已經接近目前的 SOTA 分數了。了解模型架構可以看這裡機器之心也曾經介紹過很多博客與論文,它們是理解這些模型架構的好資源。以下都是一些綜述性文章,它們非常適合全面了解架構的演變:

從 Inception v1 到 Inception-ResNet,一文概覽 Inception 家族的「奮鬥史」 無需數學背景,讀懂 ResNet、Inception 和 Xception 三大變革性架構 從 DensNet 到 CliqueNet,解讀北大在卷積架構上的探索 神經網絡架構演進史:全面回顧從 LeNet5 到 ENet 十餘種架構(附論文) 從 VGG 到 NASNet,一文概覽圖像分類網絡 縱覽輕量化卷積神經網絡:SqueezeNet、MobileNet、ShuffleNet、Xception 從 AlexNet 到殘差網絡,理解卷積神經網絡的不同架構

圖像領域研究的未來從近年來圖像研究領域的論文主題來看,現在有幾大研究方向值得關注。首先,在算法領域,生成對抗網絡(GAN)的研究呈現井噴的趨勢。越來越多的研究者嘗試使用 GAN 進行圖像方面的研究,如圖像識別、對抗樣本攻擊和防禦,以及生成高清晰度圖像、圖像風格轉換、直接生成新圖像等方面的研究。也有部分學者嘗試用 GAN 進行目標檢測。其次,在任務領域,有更多由靜態圖像轉變為動態的視頻圖像、由 2D 圖像研究轉向 3D 圖像和三維數據方面的研究。近年來,有更多的嘗試研究視頻領域中的圖像分類、目標分割和檢測方面的算法出現,實現了諸如行人檢測、人體姿態追蹤等方面的應用。同時研究人員嘗試使用深度學習模型探究 3D 建模方面的表現。最後,在模型方面,出現了模型參數縮減和模型壓縮方面的多種研究。很多學者研究在不影響模型性能的前提下進行模型剪枝和壓縮方面的技術,希望能夠將性能優異模型部署在移動端或物聯網設備上,實現本地化的模型推斷。

相關焦點

  • 宇宙的架構模型是這樣的?
    說到宇宙架構,我們就應該重新考慮一下「宇宙」這一詞的內涵,一直以來我們都認為:「地球大氣層以外的、廣袤無垠的空間就是宇宙」,這沒問題。但是,這個無邊無際的宇宙是就這麼一個呢?還是有大小不一的、無數多個小的「宇宙」組成的呢?而我們地球又是其中一個小「宇宙」之中的一份子呢?
  • TPU加AutoML:50美元快速訓練高效的ImageNet圖像分類網絡
    雖然目前很多基準僅關注於模型精度,但 DAWNBench 格外關注計算時間和成本,它們是深度模型所需的關鍵資源。DAWNBench 提供了一套通用的深度學習工作負載參考集,因此能量化不同優化策略、模型架構、軟體框架、雲計算和硬體中的訓練時間、訓練成本、推斷延遲和推斷成本等重點指標。
  • CNN 模型的可視化
    大家都了解卷積神經網絡 CNN,但是對於它在每一層提取到的特徵以及訓練的過程可能還是不太明白,所以這篇主要通過模型的可視化來神經網絡在每一層中是如何訓練的。我們知道,神經網絡本身包含了一系列特徵提取器,理想的 feature map 應該是稀疏的以及包含典型的局部信息。
  • 八種常見的業務設計和架構模型
    只要將企業架構與八種常見業務設計方法中的任何一種相關聯起來,你就可以更全面地了解企業體系結構實踐。 人們常常要求企業架構師確定計劃和項目的輕重緩急。要完成此任務,他們需要了解這些組織的戰略、策略和目標。這些信息往往很難收集,這可能是因為架構師從未意識到這些東西的存在,或者有時是因為它們根本就不存在。
  • 「和平天使」獻藝摩洛哥
    藝術團一行13名學員與帶隊老師同臺獻藝,為現場觀眾表演了童聲獨唱《讓我們蕩起雙槳》、京劇《扈家莊》、小提琴獨奏《梁祝》和雕版印刷展示等精彩節目,博得現場觀眾陣陣喝彩。
  • 你的數據倉庫既要有「維度模型設計」也要看「分層架構」
    維度模型設計和分層架構都是數據倉庫必不可缺的。維度建模以分析決策的需求出發構建模型,構建的數據模型為分析需求服務,因此它重點解決用戶如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應性能。而分層架構的設計的主要是為在管理數據的時候,能對數據有一個更加清晰的掌控。這篇乾貨將帶你認清數據倉庫「維度模型設計」與「分層架構」。
  • 霸世糙漢文:為紅顏屠盡蒼生!
    今天為大家推薦霸世糙漢文, 霸世糙漢文:為紅顏屠盡蒼生!不僅霸氣且多情,真的超級好看,喜歡這一類型的童鞋們趕緊收藏起來嘍!第一部:《霸世武神》 作者,陌中狂霸世糙漢文:為紅顏屠盡蒼生!為紅顏屠盡蒼生!為兄弟九霄弒神!讓那天地風氣雲動!讓那日月黯淡無光!
  • 馬蜂窩數據中臺起步建設:數倉的架構、模型與應用
    所以,數據中臺更多的是體現一種管理思路和架構組織上的變革。在這樣的思想下,我們結合自身業務特點建設了馬蜂窩的數據中臺,核心架構如下:在中臺建設之前,馬蜂窩已經建立了自己的大數據平臺,並積累了一些通用、組件化的工具,這些可以支撐數據中臺的快速搭建。作為中臺的另一大核心部分,馬蜂窩數據倉庫主要承擔數據統一化建設的工作,包括統一數據模型,統一指標體系等。
  • 一種基於能量模型的神經網絡架構受限玻爾茲曼機
    一種基於能量模型的神經網絡架構受限玻爾茲曼機 李倩 發表於 2018-07-26 10:09:24 受限玻爾茲曼機是一種基於能量模型的神經網絡架構,雖然不像通常的卷積神經網絡一樣被人熟知
  • NLP/CV模型跨界,視覺Transformer趕超CNN?
    由於 Transformer 的計算效率和可擴展性,基於它甚至可以訓練出參數超過 100B 的模型。隨著模型和數據集的增長,性能仍然沒有飽和的跡象。然而,在計算機視覺中,卷積架構仍然佔主導地位。受 NLP 成功的啟發,多項計算機視覺研究嘗試將類 CNN 架構與自注意力相結合,有的甚至完全代替了卷積。
  • 系統架構——掌握和使用UML包圖模型
    UML的包圖模型類似Package結構,不同的是UML包圖模型僅描述Package高層次的模塊間關係,對於較低層的模塊一般不涉及,這些較低層的模塊一般通過設計類圖來描述。UML包圖屬於高層設計模型。當我們使用包圖模型設計一個複雜系統時。首先要將系統進行功能分解,把一個大的系統劃分為多個子系統。
  • 谷歌ALBERT模型V2+中文版來了,GitHub熱榜第二
    十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI比BERT模型參數小18倍,性能還超越了它。這就是谷歌前不久發布的輕量級BERT模型——ALBERT。不僅如此,還橫掃各大「性能榜」,在SQuAD和RACE測試上創造了新的SOTA。而最近,谷歌開源了中文版本和Version 2,項目還登上了GitHub熱榜第二。
  • 關羽厚葬了他的父親,蜀國滅亡後,他將關羽一家屠盡!
    原來他將關羽一家屠盡!他究竟是誰了?他將關羽一家屠盡的原因還得從三國早期說起。建安二十四年(219年),曹仁和龐德受命在樊城討伐關羽。曹仁派龐德在樊城北邊十裡的地方駐紮,此時正值雨季,漢水的水位暴漲,樊城所處地方地勢平坦,積水達到五六丈之深,龐德等人只好轉移到堤上。此時關羽看準時機,一舉出擊,以小船為平臺,射箭攻擊龐德及其部下。
  • DARPA 最新計劃 L2M:研發超越圖靈模型和諾依曼架構的新型計算機
    這樣的計算機就像兒童一般起初學習很慢,但隨著系統越發成熟,經驗越來越多,學習模型也變得越發靈活。如果這個想法行得通,計算機將能夠像人一樣根據具體情景推斷更多的答案。「DARPA 將這一想法恰當地命名為終身學習機器(L2M)計劃,它有著雄心勃勃的目標:在這一領域內為在線學習的新人工智慧系統創造新技術,從而可使其周遭事物中學習,而無需由於新條件而被迫下線以重新編程或訓練。」
  • 解析Transformer模型
    在後續很多模型也基於Transformer進行改進,也得到了很多表現不錯的NLP模型,前段時間,相關工作也引申到了CV中的目標檢測,可參考FAIR的DETR模型引入問題常見的時間序列任務採用的模型通常都是RNN系列,然而RNN系列模型的順序計算方式帶來了兩個問題某個時間狀態
  • 如何正確地應用Web MVC架構模式分離表示層和模型處理層耦合關係
    (1)MVC架構體系設計中的三個元素——模型、視圖和控制器基於MVC架構體系設計的軟體應用系統可以分解為模型、視圖和控制器三個組成部分,它們分別對應於應用系統中的業務邏輯和數據、用戶界面、用戶請求處理和數據同步等功能實現。
  • 「首席架構師看微服務架構」介紹NGINX的微服務參考架構
    我們認為需要使用模型來使公司更容易開發和交付自己的基於微服務的應用程式。考慮到這一切,NGINX專業服務部門正在開發NGINX微服務參考架構(MRA) - 一組可用於創建自己的微服務應用程式的模型。MRA由兩部分組成:三個模型中的每一個的詳細描述,以及實現我們的示例照片共享程序的可下載代碼,Ingenious。
  • 金星遙感衛星模型亮相工博會
    原標題:金星遙感衛星模型亮相工博會 11月1日,中國首顆金星全球遙感與漂浮探測器衛星模型亮相在上海開幕的第18屆中國國際工業博覽會。 圖為金星遙感衛星模型。
  • 冰山模型與洋蔥模型
    素質模型理論是現代領導力研究的重要理論基礎,我們常見的「領導力模型」大多是指領導者的素質模型,重點關注能夠帶來優秀績效的素質。比較有影響力的素質模型理論包括冰山模型理論和洋蔥模型理論。冰山模型理論素質模型的研究始於20世紀60年代,最初的應用是在美國對外交官的選拔上,由心理學家麥克利蘭提出。麥克利蘭認為,通過對優秀績效者的訪談,找出真正影響工作業績的個人條件和行為特徵,就可以構成素質模型,並定義素質是驅使人們產生工作績效的各種個性特徵的集合,反映的是可以通過不同方式表現出的知識、技能、個性與內驅力等。
  • Facebook技術分享:如何在PyTorch中訓練圖像分類模型
    數據集的標準拆分用於評估和比較模型,其中60,000張圖像用於訓練模型,而單獨的10,000張圖像集用於測試模型。 因此,讓我們在PyTorch和TensorFlow中使用CNN構建圖像分類模型。我們將從在PyTorch中實現開始。我們將在google colab中實現這些模型,該模型提供免費的GPU以運行這些深度學習模型。