機器之心報導
參與:一鳴、思
60+模型架構,歷年十幾個 SOTA 模型,這 21 秒帶你縱覽圖像識別的演進歷史。
ImageNet 是計算機視覺領域常用的數據集之一。在圖像分類、目標分割和目標檢測中有著無法撼動的地位。ImageNet 最初是由李飛飛等人在 CVPR 2009 年發表的論文——「ImageNet: A Large-Scale Hierarchical Image Database」中發布的。多年來,ImageNet 的相關論文對業內有極大的影響。截至到當前,Google Scholar 上展示該論文有 12224 的引用量。這篇論文在 ImageNet 發布十周年之際,於 CVPR 2019 大會上獲得了經典論文獎。ImageNet 本身則是一個海量的帶標註圖像數據集。通過眾包等方式進行標註,從 2007 年開始直到 2009 年完成。ImageNet 有超過 1500 萬張圖片,僅汽車圖像的數量達到了 70 萬張,類別數量為 2567 個。如此巨量、 標註錯誤極低且免費的數據集,已經成為圖像處理領域研究者首先接觸的數據集之一。毫不誇張的說,ImageNet 是圖像處理算法的試金石。從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。2017 年後的比賽由 Kaggle 社區主持。自 2012 年 Hinton 等的團隊提出 AlexNet 開始,每年都有層出不窮的模型希望在 ImageNet 排行榜上取得一席之地。近日,PaperWithCode 網站發布了一段 21 秒的視頻,在 ImageNet 發布十年的時刻,總結了歷年來排行榜上取得一定效果的模型。
如上展示了 13 到 19 年的分類任務 SOTA 效果演進,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 結構、殘差模塊等等。Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet機器之心根據視頻和網站內容進行了整理。以下為一些著名的模型、發布時間、Top-1 準確率、參數量,以及相關的論文連結。發布時取得 SOTA 的模型名以紅色字體標出。這是一堆耳熟能詳的模型
AlexNet 提出時間:2012/9 Top-1 準確率:62.5% 參數量:60M 論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdfAlexNet 的架構示意圖。
ZFNet 提出時間:2013/11 Top-1 準確率:64% 論文地址:https://arxiv.org/pdf/1311.2901v3.pdf Inception V1 提出時間:2014/9 Top-1 準確率:69.8% 參數量:5M 論文地址:https://arxiv.org/pdf/1409.4842v1.pdf VGG-19 提出時間:2014/9 Top-1 準確率:74% 參數量:144M 論文地址:https://arxiv.org/pdf/1409.1556v6.pdf PReLU-Net 提出時間:2015/2 Top-1 準確率:75.73% 論文地址:https://arxiv.org/pdf/1502.01852v1.pdf Inception V3 提出時間:2015/12 Top-1 準確率:78.8% 參數量:23.8M 論文地址:https://arxiv.org/pdf/1512.00567v3.pdfInception V3。
ResNet 152 提出時間:2015/12 Top-1 準確率:78.6% 論文地址:https://arxiv.org/pdf/1512.03385v1.pdfResNet 的基本模塊。
Inception ResNet V2 提出時間:2016/2 Top-1 準確率:80.1% 論文地址:https://arxiv.org/pdf/1602.07261v2.pdf DenseNet-264 提出時間:2016/8 Top-1 準確率:79.2% 論文地址:https://arxiv.org/pdf/1608.06993v5.pdf增長率為 4 的 DenseNet 架構。
ResNeXt-101 64×4 提出時間:2016/11 Top-1 準確率:80.9% 參數量:83.6M 論文地址:https://arxiv.org/pdf/1611.05431v2.pdf PolyNet 提出時間:2016/11 Top-1 準確率:81.3% 參數量:92M 論文地址 https://arxiv.org/pdf/1611.05725v2.pdf DPN-131 提出時間:2017/7 Top-1 準確率:81.5% 參數量:80M 論文地址:https://arxiv.org/pdf/1707.01629v2.pdf NASNET-A(6) 提出時間:2017/7 Top-1 準確率:82.7% 參數量:89M 論文地址:https://arxiv.org/pdf/1707.07012v4.pdf利用神經架構搜索(NAS)方法獲得的模型(右圖),相比左邊的模型減少了參數量,效果得到了提升。
PNASNet-5 提出時間:2017/12 Top-1 準確率:82.9% 參數量:86.1M 論文地址:https://arxiv.org/pdf/1712.00559v3.pdf MobileNetV2 提出時間:2018/1 Top-1 準確率:74.7% 參數量:6.9M 論文地址:https://arxiv.org/pdf/1801.04381v4.pdf AmoebaNet-A 提出時間:2018/2 Top-1 準確率:83.9% 參數量:469M 論文地址:https://arxiv.org/pdf/1802.01548v7.pdf ResNeXt-101 32×48d 提出時間:2018/5 Top-1 準確率:85.4% 參數量:829M 論文地址:https://arxiv.org/pdf/1805.00932v1.pdf ShuffleNet V2 2× 提出時間:2018/7 Top-1 準確率:75.4% 參數量:7.4M 論文地址:https://arxiv.org/pdf/1807.11164v1.pdf EfficientNet 提出時間:2019/5 Top-1 準確率:84.4% 參數量:66M 論文地址:https://arxiv.org/pdf/1905.11946v2.pdfEfficientNet 論文中的架構對比。a)基線模型;b)- d)分別為對圖像寬度、深度和解析度的掃描架構;e)論文提出的可以將所有掃描架構融合在一起的網絡結構。
FixResNeXt-101 32×48d 提出時間:2019/6 Top-1 準確率:86.4% 參數量:829M 論文地址:https://arxiv.org/pdf/1906.06423v2.pdf你發現了某些規律?從屠榜模型來看,取得 SOTA 的模型參數量在逐年增加。從有 60M 參數量的 AlexNet 到有著 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。但是也有很意外的情況,比如 DenseNet 獲得了 CVPR 2017 的最佳論文,但是 DenseNet 並沒有達到 SOTA 的效果。此外,名聲在外的 ResNet 也僅僅是接近 2015 年的 SOTA 模型 Inception V3。但是,沒有取得 SOTA 並不代表這些模型不好。它們給了後續工作很大的啟發。值得注意的是,從 2018 年開始,縮小模型參數量的研究逐漸增多。可以看到有 MobileNet、ShuffleNet 等,可惜在性能上犧牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,僅有 66M 的參數量,但已經接近目前的 SOTA 分數了。了解模型架構可以看這裡機器之心也曾經介紹過很多博客與論文,它們是理解這些模型架構的好資源。以下都是一些綜述性文章,它們非常適合全面了解架構的演變:
從 Inception v1 到 Inception-ResNet,一文概覽 Inception 家族的「奮鬥史」 無需數學背景,讀懂 ResNet、Inception 和 Xception 三大變革性架構 從 DensNet 到 CliqueNet,解讀北大在卷積架構上的探索 神經網絡架構演進史:全面回顧從 LeNet5 到 ENet 十餘種架構(附論文) 從 VGG 到 NASNet,一文概覽圖像分類網絡 縱覽輕量化卷積神經網絡:SqueezeNet、MobileNet、ShuffleNet、Xception 從 AlexNet 到殘差網絡,理解卷積神經網絡的不同架構圖像領域研究的未來從近年來圖像研究領域的論文主題來看,現在有幾大研究方向值得關注。首先,在算法領域,生成對抗網絡(GAN)的研究呈現井噴的趨勢。越來越多的研究者嘗試使用 GAN 進行圖像方面的研究,如圖像識別、對抗樣本攻擊和防禦,以及生成高清晰度圖像、圖像風格轉換、直接生成新圖像等方面的研究。也有部分學者嘗試用 GAN 進行目標檢測。其次,在任務領域,有更多由靜態圖像轉變為動態的視頻圖像、由 2D 圖像研究轉向 3D 圖像和三維數據方面的研究。近年來,有更多的嘗試研究視頻領域中的圖像分類、目標分割和檢測方面的算法出現,實現了諸如行人檢測、人體姿態追蹤等方面的應用。同時研究人員嘗試使用深度學習模型探究 3D 建模方面的表現。最後,在模型方面,出現了模型參數縮減和模型壓縮方面的多種研究。很多學者研究在不影響模型性能的前提下進行模型剪枝和壓縮方面的技術,希望能夠將性能優異模型部署在移動端或物聯網設備上,實現本地化的模型推斷。