谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型

2020-12-27 機器之心Pro

昨天,谷歌宣布開放 TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。

為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。Inception-ResNet-v2 是早期發布的 Inception V3 模型的變體,該模型借鑑了微軟 ResNet 論文中的思路。具體內容可在我們的論文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning 中看到。

殘差連接(Residual connections )允許模型中進行 shortcut,也使得研究員能成功的訓練更深的神經網絡從而產生更好的性能。這也使得 Inception 塊的極度簡單化成為可能。下圖對比了這兩個模型架構:

Inception V3 圖解

Inception-ResNet-v2 的圖解

在第二張圖解的頂端,你可以看到全部的網絡拓展,可以注意到該網絡比之前的 Inception V3 要深得多。主圖的下面是更簡單閱讀同一網絡版本的方式,裡面重複的殘差塊是被壓縮了。注意,裡面的 Inception 塊被簡化的,比先前的 Inception V3 包含更少的並行塔 (parallel towers)。

Inception-ResNet-v2 架構比之前的前沿模型更加準確。下表報告了在基於單類圖像的 ILSVRC 2012 圖像分類基準上的 Top-1 和 Top-5 的準確度檢驗結果。此外,該新模型相比於 Inception V3 大約只需要兩倍的存儲和計算能力。

結果援引於 ResNet 論文

舉個例子,Inception V3 和 Inception-ResNet-v2 模型在識別犬種上都很擅長,但新模型做的更好。例如,舊模型錯誤報告右圖中的狗是阿拉斯加雪橇犬,而新的 Inception-ResNet-v2 模型準確識別了兩張圖片中的狗的種類。

阿拉斯加雪橇犬(左),西伯利亞愛斯基摩狗(右)

為了讓人們能立即進行試驗,我們也發布了 Inception-ResNet-v2 模型的一個預訓練案例作為 TF-Slim 圖像模型庫的一部分。

如果想進行試驗,這是如何訓練、評估或微調網絡的指導:https://github.com/tensorflow/models/blob/master/slim/README.md

本文選自Google Research,作者: Alex Alemi,機器之心編譯;

產品建議及投訴請聯繫:shoujibaidu@baidu.com

相關焦點

  • 業界 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • Google最新開源Inception-ResNet-v2,藉助殘差網絡進一步提升圖像...
    ,也能對圖像分類領域中幾個主要有競爭力的網絡進行檢驗和定義模型。為了進一步推進這個領域的進步,今天Google團隊宣布發布Inception-ResNet-v2(一種卷積神經網絡——CNN),它在ILSVRC圖像分類基準測試中實現了當下最好的成績。Inception-ResNet-v2是早期Inception V3模型變化而來,從微軟的殘差網絡(ResNet)論文中得到了一些靈感。
  • VGGNet、ResNet、Inception和Xception圖像分類及對比
    在這種背景下,目標是訓練一個模型,可以將輸入圖像分類為 1000 個獨立的對象類別。本節將使用由超過 120 萬幅訓練圖像、50000 幅驗證圖像和 100000 幅測試圖像預訓練出的模型。該網絡使用 3×3 卷積核的卷積層堆疊並交替最大池化層,有兩個 4096 維的全連接層,然後是 softmax 分類器。16 和 19 分別代表網絡中權重層的數量(即列 D 和 E):圖 1 深層網絡配置示例在 2015 年,16 層或 19 層網絡就可以認為是深度網絡,但到了 2017 年,深度網絡可達數百層。
  • 經典神經網絡 | 從Inception v1到Inception v4全解析
    GoogLeNet 最大的特點就是使用了 Inception 模塊,它的目的是設計一種具有優良局部拓撲結構的網絡,即對輸入圖像並行地執行多個卷積運算或池化操作,並將所有輸出結果拼接為一個非常深的特徵圖。因為 1*1、3*3 或 5*5 等不同的卷積運算與池化操作可以獲得輸入圖像的不同信息,並行處理這些運算並結合所有結果將獲得更好的圖像表徵。
  • 2D卷積網絡模型
    #5Network in Network5.1時間和簡介《Network in Network》是原於2013年發表的論文,論文中描述了一種新型卷積神經網絡結構,就叫做Network in Network(NIN)。LeNet,AlexNet,VGG都秉承一種設計思路:先用卷積層構成的模塊提取空間特徵,再用全連接層模塊來輸出分類結果。
  • 譯文 | Inception-v4,Inception-ResNet 和殘差連接對學習的影響(多圖)
    原文:https://arxiv.org/pdf/1602.07261.pdf——前言:作者認為殘差連接在訓練深度卷積模型是很有必要的。至少在圖像識別上,我們的研究似乎並不支持這一觀點。摘要:    近年來,深度卷積神經網絡對圖像識別性能的巨大提升發揮著關鍵作用。以Inception網絡為例,其以相對較低的計算代價取得出色的表現。
  • 基於飛槳PaddlePaddle的多種圖像分類預訓練模型強勢發布
    在計算機視覺領域,圖像分類是非常重要的基本問題,是圖像目標檢測、圖像分割、圖像檢索、視頻理解、物體跟蹤、行為分析等其他高層視覺任務的基礎,在實際場景中,有著廣泛應用。飛槳(PaddlePaddle)視覺模型庫圖像分類持續提供業內領先的分類網絡結構訓練方法以及在imagenet 1000分類任務上的預訓練模型。
  • 深度 | 從AlexNet到殘差網絡,理解卷積神經網絡的不同架構
    網絡架構設計是一個複雜的過程,需要時間學習,需要更多時間去實驗。但是,首先我們需要全面地了解它:卷積神經網絡為什麼能夠打敗傳統的計算機視覺網絡?圖像分類任務需要把給定圖像分類成一種預定義類別。傳統的圖像分類流程包括兩個模塊:特徵提取和分類。
  • 深度學習之卷積神經網絡經典模型
    LeNet-5模型一共有7層,每層包含眾多參數,也就是卷積神經網絡中的參數。雖然層數只有7層,這在如今龐大的神經網絡中可是說是非常少的了,但是包含了卷積層,池化層,全連接層,可謂麻雀雖小五臟俱全了。為了方便,我們把卷積層稱為C層,下採樣層叫做下採樣層。首先,輸入層輸入原始圖像,原始圖像被處理成32×32個像素點的值。然後,後面的隱層計在卷積和子抽樣之間交替進行。
  • 從Inception v1到Inception-ResNet,一文概覽Inception家族的「奮鬥史」
    它們的計算效率與參數效率在所有卷積架構中都是頂尖的,且根據 CS231n 中所介紹的,Inception V4 基本上是當前在 ImageNet 圖像分類任務 Top-1 正確率最高的模型。Inception 網絡是 CNN 分類器發展史上一個重要的裡程碑。在 Inception 出現之前,大部分流行 CNN 僅僅是把卷積層堆疊得越來越多,使網絡越來越深,以此希望能夠得到更好的性能。
  • 經典CNN網絡(Lenet、Alexnet、GooleNet、VGG、ResNet、DenseNet)
    inception的結構,一分四,然後做一些不同大小的卷積,之後再堆疊feature map。殘差網絡做了相加的操作,inception做了串聯的操作圖:inception v1    Googlenet的核心思想是inception,通過不垂直堆砌層的方法得到更深的網絡(我的理解是變寬且視野範圍種類多,vgg及resnet讓網絡變深,inception讓網絡變寬
  • 三步教你搭建給黑白照片上色的神經網絡 !(附代碼)
    最後,將神經網絡與分類器相結合,得到最終版本。Inception Resnet V2是訓練120萬張圖像後得到的神經網絡,我們使用了該模型。為了使著色效果更加吸引人,我們使用了來自素材網站Unsplash的人像集,來訓練這個神經網絡。
  • RestNet50預訓練模型top1近80%,基於飛槳PaddlePaddle的多種圖像...
    在計算機視覺領域,圖像分類是非常重要的基本問題,是圖像目標檢測、圖像分割、圖像檢索、視頻理解、物體跟蹤、行為分析等其他高層視覺任務的基礎,在實際場景中,有著廣泛應用。飛槳(PaddlePaddle)視覺模型庫圖像分類持續提供業內領先的分類網絡結構訓練方法以及在imagenet 1000分類任務上的預訓練模型。
  • 10分鐘看懂全卷積神經網絡( FCN ):語義分割深度模型先驅
    我們簡單總結了圖像分割的幾個時期:2000年之前,數字圖像處理時我們採用方法基於幾類:閾值分割、區域分割、邊緣分割、紋理特徵、聚類等。2000年到2010年期間, 主要方法有四類:基於圖論、聚類、分類以及聚類和分類結合。2010年至今,神經網絡模型的崛起和深度學習的發展,主要涉及到幾種模型:
  • 經典的CNN模型架構-LeNet、AlexNet、VGG、GoogleLeNet、ResNet
    每個節點都包含超過500幅圖像。ImageNet大規模視覺識別挑戰賽(ILSVRC)成立於2010年,旨在提高大規模目標檢測和圖像分類的最新技術。在對 ImageNet概覽之後,我們現在來看看不同的CNN模型架構。
  • DL經典論文系列(二) AlexNet、VGG、GoogLeNet/Inception、ResNet
    它首先是5個卷積層,然後緊跟著是3個全連接層,如下圖所示:Alex Krizhevs提出的AlexNet採用了ReLU激活函數,而不像傳統神經網絡早期所採用的Tanh或Sigmoid激活函數,ReLU數學表達為:
  • 快速訓練殘差網絡 ResNet-101,完成圖像分類與預測,精度高達 98%|...
    出於這個原因,這一次,我將採用一種巧妙的方法——遷移學習來實現。即在預訓練模型的基礎上,採用101層的深度殘差網絡ResNet-101,對如下圖所示的花數據集進行訓練,快速實現了對原始圖像的分類和預測,最終預測精確度達到了驚人的98%。
  • 【深度學習系列】用PaddlePaddle和Tensorflow實現GoogLeNet InceptionV2/V3/V4
    【深度學習系列】卷積神經網絡詳解(二)——自己手寫一個卷積神經網絡  【深度學習系列】用PaddlePaddle和Tensorflow進行圖像分類  【深度學習系列】用PaddlePaddle和Tensorflow實現經典CNN網絡AlexNet  【深度學習系列】用PaddlePaddle和Tensorflow實現經典CNN網絡Vgg
  • 卷積神經網絡中不同類型的卷積方式
    雖說如此,但是大的卷積核會導致計算量的暴增,不利於模型深度的增加,計算性能也會降低。於是在VGG(最早使用)、Inception網絡中,利用2個3×3卷積核的組合比1個5×5卷積核的效果更佳,同時參數量(3×3×2+1 VS 5×5×1+1)被降低,因此後來3×3卷積核被廣泛應用在各種模型中。