CNN架構創新分為七個不同的類別綜述

2021-01-10 電子發燒友

深度卷積神經網絡(CNN)是一種特殊類型的神經網絡,在各種競賽基準上表現出了當前最優結果。深度 CNN 架構在挑戰性基準任務比賽中實現的高性能表明,創新的架構理念以及參數優化可以提高 CNN 在各種視覺相關任務上的性能。本綜述將最近的 CNN 架構創新分為七個不同的類別,分別基於空間利用、深度、多路徑、寬度、特徵圖利用、通道提升和注意力。

引言

通過 1989 年 LeCun 處理網格狀拓撲數據(圖像和時間系列數據)的研究,CNN 首次受到關注。CNN 被視為理解圖像內容的最好技術之一,並且在圖像識別、分割、檢測和檢索相關任務上表現出了當前最佳性能。CNN 的成功引起了學界外的注意。在產業界,如谷歌、微軟、AT&T、NEC 和 Facebook 這樣的公司都設立了研究團隊來探索 CNN 的新架構。目前,圖像處理競賽中的大多數領跑者都會採用基於深度 CNN 的模型。

自 2012 年以來,關於 CNN 架構的不同創新被提出來。這些創新可分為參數優化、正則化、結構重組等。但是據觀察,CNN 網絡的性能提升應主要歸功於處理單元的重構和新模塊的設計。自 AlexNet 在 ImageNet 數據集上展現出了非凡的性能後,基於 CNN 的應用變得越來越普及。類似地,Zeiler 和 Fergus 介紹了特徵分層可視化的概念,這改變了用深度架構(如 VGG)在簡單的低空間解析度中提取特徵的趨勢。如今,大多數新架構都是基於 VGG 引入的簡單原則和同質化拓撲構建的。

另一方面,谷歌團隊引入了一個非常著名的關於拆分、轉換和合併的概念,稱為 Inception 模塊。初始塊第一次使用了層內分支的概念,允許在不同空間尺度上提取特徵。2015 年,為了訓練深度 CNN,Resnet 引入的殘差連接概念變得很有名,並且,後來的大多數網絡像 Inception-ResNet,WideResNet,ResNext 等都在使用它。與此類似,一些像 WideResnet、Pyramidal Nets、Xception 這樣的架構都引入了多層轉換的概念,通過額外的基數和增加的寬度來實現。因此,研究的重點從參數優化和連接再次調整,轉向了網絡架構設計(層結構)。這引發了許多像通道提升、空間和通道利用、基於注意力的信息處理等新的架構概念。

本文結構如下:

圖 1:文章結構

圖 2:典型模式識別(OR)系統的基本布局。PR 系統分為三個階段:階段 1 和數據挖掘相關,階段 2 執行預處理和特徵選擇,而階段 3 基於模型選擇、調參和分析。CNN 有良好的特徵提取能力和強大的鑑別能力,因此在一個 PR 系統中,它可以用於特徵提取/生成和模型選擇階段。

4 CNN 中的架構創新

自 1989 年至今,CNN 架構已經有了很多不同的改進。CNN 中的所有創新都是通過深度和空間相結合實現的。根據架構修改的類型,CNN 可以大致分為 7 類:基於空間利用、深度、多路徑、寬度、通道提升、特徵圖利用和注意力的 CNN。深度 CNN 架構的分類如圖 3 所示。

圖 3:深度 CNN 架構分類

4.1 基於空間利用的 CNN

CNN 有大量參數,如處理單元數量(神經元)、層數、濾波器大小、步幅、學習率和激活函數等。由於 CNN 考慮輸入像素的鄰域(局部性),可以使用不同大小的濾波器來探索不同級別的相關性。因此,在 2000 年初,研究人員利用空間變換來提升性能,此外,還評估了不同大小的濾波器對網絡學習率的影響。不同大小的濾波器封裝不同級別的粒度;通常,較小的濾波器提取細粒度信息,而較大的濾波器提取粗粒度信息。這樣,通過調整濾波器大小,CNN 可以在粗粒度和細粒度的細節上都表現很好。

4.2 基於深度的 CNN

深度 CNN 架構基於這樣一種假設:隨著深度的增加,網絡可以通過大量非線性映射和改進的特徵表示更好地逼近目標函數。網絡深度在監督學習的成功中起了重要作用。理論研究已表明,深度網絡能夠以指數方式比淺層網絡更有效地表示特定的 20 個函數類型。2001 年,Csáji 表示了通用近似定理,指出單個隱藏層足夠逼近任何函數,但這需要指數級的神經元,因而通常導致計算上行不通。在這方面,Bengio 和 elalleau 認為更深的網絡有潛力在更少的成本下保持網絡的表現能力。2013 年,Bengio 等人通過 實證表明,對於複雜的任務,深度網絡在計算和統計上都更有效。在 2014-ILSVR 競賽中表現最佳的 Inception 和 VGG 則進一步說明,深度是調節網絡學習能力的重要維度。

一旦特徵被提取,只要其相對於其他位置的近似位置被保留,其提取位置就變得沒那麼重要了。池化或下採樣(如卷積)是一種有趣的局部操作。它總結了感受野附近的類似信息,並輸出了該局部區域內的主要反應。作為卷積運算的輸出結果,特徵圖案可能會出現在圖像中的不同位置。

4.3 基於多路徑的 CNN

深度網絡的訓練頗具挑戰性,這也是近來很多深度網絡研究的主題。深度 CNN 為複雜任務提供了高效的計算和統計。但是,更深的網絡可能會遭遇性能下降或梯度消失/爆炸的問題,而這通常是由增加深度而非過擬合造成的。梯度消失問題不僅會導致更高的測試誤差,還會導致更高的訓練誤差。為了訓練更深的網絡,多路徑或跨層連接的概念被提出。多路徑或捷徑連接可以通過跳過一些中間層,系統地將一層連接到另一層,以使特定的信息流跨過層。跨層連接將網絡劃分為幾塊。這些路徑也嘗試通過使較低層訪問梯度來解決梯度消失問題。為此,使用了不同類型的捷徑連接,如零填充、基於投影、dropout 和 1x1 連接等。

激活函數是一種決策函數,有助於學習複雜的模式。選擇適當的激活函數可以加速學習過程。卷積特徵圖的激活函數定義為等式(3)。

4.4 基於寬度的多連接 CNN

2012 至 2015 年,網絡架構的重點是深度的力量,以及多通道監管連接在網絡正則化中的重要性。然而,網絡的寬度和深度一樣重要。通過在一層之內並行使用多處理單元,多層感知機獲得了在感知機上映射複雜函數的優勢。這表明寬度和深度一樣是定義學習原則的一個重要參數。Lu 等人和 Hanin & Sellke 最近表明,帶有線性整流激活函數的神經網絡要足夠寬才能隨著深度增加保持通用的近似特性。並且,如果網絡的最大寬度不大於輸入維度,緊緻集上的連續函數類無法被任意深度的網絡很好地近似。因此,多層堆疊(增加層)可能不會增加神經網絡的表徵能力。與深度架構相關的一個重要問題是,有些層或處理單元可能無法學習有用的特徵。為了解決這一問題,研究的重點從深度和較窄的架構轉移到了較淺和較寬的架構上。

4.5 基於特徵圖(通道特徵圖)開發的 CNN

CNN 因其分層學習和自動特徵提取能力而聞名於 MV 任務中。特徵選擇在決定分類、分割和檢測模塊的性能上起著重要作用。傳統特徵提取技術中分類模塊的性能要受限於特徵的單一性。相較於傳統技術,CNN 使用多階段特徵提取,根據分配的輸入來提取不同類型的特徵(CNN 中稱之為特徵圖)。但是,一些特徵圖有很少或者幾乎沒有目標鑑別作用。巨大的特徵集有噪聲效應,會導致網絡過擬合。這表明,除了網絡工程外,特定類別特徵圖的選取對改進網絡的泛化性能至關重要。在這一部分,特徵圖和通道會交替使用,因為很多研究者已經用通道這個詞代替了特徵圖。

4.6. 基於通道(輸入通道)利用的 CNN

圖像表徵在決定圖像處理算法的性能方面起著重要作用。圖像的良好表徵可以定義來自緊湊代碼的圖像的突出特徵。在不同的研究中,不同類型的傳統濾波器被用來提取單一類型圖像的不同級別信息。這些不同的表徵被用作模型的輸入,以提高性能。CNN 是一個很好的特徵學習器,它能根據問題自動提取鑑別特徵。但是,CNN 的學習依賴於輸入表徵。如果輸入中缺乏多樣性和類別定義信息,CNN 作為鑑別器的性能就會受到影響。為此,輔助學習器的概念被引入到 CNN 中來提升網絡的輸入表徵。

4.7 基於注意力的 CNN

不同的抽象級別在定義神經網絡的鑑別能力方面有著重要的作用。除此之外,選擇與上下文相關的特徵對於圖像定位和識別也很重要。在人類的視覺系統中,這種現象叫做注意力。人類在一次又一次的匆匆一瞥中觀察場景並注意與上下文相關的部分。在這個過程中,人類不僅注意選擇的區域,而且推理出關於那個位置的物體的不同解釋。因此,它有助於人類以更好的方式來抓取視覺結構。類似的解釋能力被添加到像 RNN 和 LSTM 這樣的神經網絡中。上述網絡利用注意力模塊來生成序列數據,並且根據新樣本在先前迭代中的出現來對其加權。不同的研究者把注意力概念加入到 CNN 中來改進表徵和克服數據的計算限制問題。注意力概念有助於讓 CNN 變得更加智能,使其在雜亂的背景和複雜的場景中也能識別物體。

論文:A Survey of the Recent Architectures of Deep Convolutional Neural Networks 

論文地址:https://arxiv.org/abs/1901.06032

摘要:深度卷積神經網絡(CNN)是一種特殊類型的神經網絡,在各種競賽基準上表現出了當前最優結果。深度 CNN 的超強學習能力主要是通過使用多個非線性特徵提取階段實現的,這些階段能夠從數據中自動學習分層表徵。大量數據的可用性和硬體處理單元的改進加速了 CNN 的研究,最近也報導了非常有趣的深度 CNN 架構。近來,深度 CNN 架構在挑戰性基準任務比賽中實現的高性能表明,創新的架構理念以及參數優化可以提高 CNN 在各種視覺相關任務上的性能。鑑於此,關於 CNN 設計的不同想法被探索出來,如使用不同的激活函數和損失函數、參數優化、正則化以及處理單元的重構。然而,在表徵能力方面的主要改進是通過重構處理單元來實現的。尤其是,使用塊而不是層來作為結構單元的想法獲得了極大的讚賞。本綜述將最近的 CNN 架構創新分為七個不同的類別。這七個類別分別基於空間利用、深度、多路徑、寬度、特徵圖利用、通道提升和注意力。此外,本文還涵蓋了對 CNN 組成部分的基本理解,並揭示了 CNN 目前面臨的挑戰及其應用。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 從基本組件到結構創新,67頁論文解讀深度卷積神經網絡架構
    因此,本綜述著重於最近報導的深度CNN架構中存在的內在分類法,將CNN架構中的最新創新分為七個不同類別。這七個類別分別基於空間利用、深度、多路徑、寬度、特徵圖利用、通道提升和注意力。此外,本文還涵蓋了對 CNN 組成部分的基本理解,並揭示了 CNN 目前面臨的挑戰及其應用。
  • ISJ | 數字創新:文獻回顧與研究綜述
    本文結合科學計量和系統文獻綜述方法構建了一個理論框架,包含7個維度:啟動、發展、實施、開發、外部競爭環境的作用、內部組織環境的作用以及產品、服務和過程結果。從宏觀的角度來看,我們發現相關研究的覆蓋面、研究的多樣性極不均勻。結合我們對7個研究主題的總結,本文提出了未來數字創新研究的幾個領域。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文Image Segmentation Using Deep Learning: A Survey>,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。
  • 數據科學家必須知道的 10 個深度學習架構
    幾乎每一天都有關於深度學習的創新,而大部分的深度學習創新都隱藏在那些發表於ArXiv和Spinger等研究論文中。高級架構」?這些對象可能屬於同一類別,也可能屬於不同類別。圖像分割:圖像分割是一項稍微複雜的任務,其目的是將圖像的各個像素映射到其對應的各個類別。
  • 入門| CNN也能用於NLP任務,一文簡述文本分類任務的7個模型
    在相關的 GitHub 庫中還有不同的模型、這些模型的預測結果以及測試集。你可以自己嘗試並得到可信的結果。 以下是我將使用的架構的一些元素: 嵌入維度為 300。這意味著我們使用的 8 萬個單詞中的每一個都被映射至 300 維的密集(浮點數)向量。該映射將在訓練過程中進行調整。
  • 經典解讀 | Cascade R-CNN詳細解讀
    文章提出的cascade結構的效果是驚豔的,幾乎對於任意的R-CNN(Faster rcnn,FPN,R-FCN等)都可以帶來2到4個點的AP提升!!!而且實現十分簡單,已使用Pytorch在Pascal VOC上復現論文。此外,本篇文章的實驗講解部分對於理解R-CNN網絡有很大的幫助,建議詳細閱讀。   0. 本篇解析的內容結構   1. 簡單回顧R-CNN結構
  • NVIDIA Turing 架構獲得2019年度行業創新獎
    本次2019頒獎典禮中公布了從438款入圍產品中經過激烈角逐脫穎而出的星標大獎、行業創新獎、專業選擇獎、用戶選擇獎、年度進取產品。其中,NVIDIA Turing 架構榮獲2019年度行業創新獎,引領產品技術創新,取得了跨越性的突破。
  • ...調控創新團隊在食品領域國際頂尖期刊發表綜述文章「蛋白質翻譯...
    肉品加工與品質調控創新團隊近十年來聚焦宰後早期能量代謝與蛋白質翻譯後修飾關聯調控肉品質的分子機制,取得系列重大突破,為解決上述問題提供了新思路和新途徑。本團隊研究發現蛋白質磷酸化和去磷酸化影響肉品質,揭示了宰後早期能量代謝與蛋白質翻譯後修飾關聯調控僵直和成熟進程而調控肉品質的新機制,在Food Chemistry、Meat Science等本領域頂級期刊發表學術論文50餘篇。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    從圖 1 中可以看出,目標檢測主要是檢測一張圖片中有哪些目標,並且使用方框表示出來,方框中包含的信息有目標所屬類別。圖 2 與圖 1 的最大區別在於,圖 2 除了把每一個物體的方框標註出來,並且把每個方框中像素所屬的類別也標記了出來。
  • CVPR 2019 神經網絡架構搜索進展綜述
    手動調參尋找神經網絡架構依然是個有趣的工作,尤其是對於那些帶了很多學生的導師而言(開玩笑啦~)。  神經網絡架構搜索(NAS)——前言那麼問題來了,神經網絡架構搜索(NAS)究竟是什麼?為什麼我們要了解NAS呢?(這一部分是為了去年完全沒有跟進領域內進展的人準備的)NAS的核心思想是使用搜索算法來發現用於解決我們的問題所需要的神經網絡結構。
  • 肉品加工與品質調控創新團隊在食品領域國際頂尖期刊發表綜述文章...
    肉品加工與品質調控創新團隊近十年來聚焦宰後早期能量代謝與蛋白質翻譯後修飾關聯調控肉品質的分子機制,取得系列重大突破,為解決上述問題提供了新思路和新途徑。本團隊研究發現蛋白質磷酸化和去磷酸化影響肉品質,揭示了宰後早期能量代謝與蛋白質翻譯後修飾關聯調控僵直和成熟進程而調控肉品質的新機制,在Food Chemistry、Meat Science等本領域頂級期刊發表學術論文50餘篇。
  • 關於人工智慧的不同階段以及不同類別
    打開APP 關於人工智慧的不同階段以及不同類別 百家號 發表於 2019-09-11 10:59:54 人工智慧已經成為我們日常生活的一部分,這篇文章將幫助讀者了解人工智慧的不同階段和類別。1956年,約翰·麥卡錫(John McCarthy),計算科學與認知科學專家,美國史丹福大學教授)如此定義「人工智慧」一詞——創造智能機器的科學和工程。人工智慧還可以被定義為計算機系統開發。此類計算機系統能夠執行需要人類智能的任務,例如決策,對象檢測,解決複雜問題等。
  • 這篇綜述文章用166篇參考文獻告訴你答案
    來自港科大和第四範式的這篇綜述論文提供了解答。數據是機器學習領域的重要資源,在數據缺少的情況下如何訓練模型呢?小樣本學習是其中一個解決方案。來自香港科技大學和第四範式的研究人員綜述了該領域的研究發展,並提出了未來的研究方向。
  • 我整理了三百多篇論文,得出了寫文獻綜述的這些經驗
    文獻綜述的目的最終的碩士畢業論文裡,文獻綜述的部分是不可或缺的,而讓我們這些「研究者」寫文獻綜述的目的在於總結和整理前人的關於某一個問題的研究成果,然後說明自己的這篇論文的研究在這個基礎上有什麼創新或者意義,又或者說是另外的一種研究方法的更新。
  • 研究生論文文獻綜述怎麼寫
    一個資料全面、研究深入的綜述不僅可以幫助研究生確立學位論文的選題,還可以為論文的深入研究提供有力的支撐。一、撰寫文獻綜述的作用和意義1)為學位論文的選題尋求切入點和突破點科學研究本質上是一種創新活動;創新是對現有研究不足的彌補或突破。
  • cnn.com網站被封
    cnn.com網站被封 美亞 00年10月19日 【原創】 作者: 中關村在線     CNN(美國有線電視新聞網)是全球最大也是最盈利的新聞機構之一,在全球有非常高的知名度
  • 小樣本學習(Few-shot Learning)綜述
    創新總是基於對已有成果的梳理和思考,這篇綜述算是一個小結,寫出來和大家一起分享,一起討論。在訓練階段,會在訓練集中隨機抽取 C 個類別,每個類別 K 個樣本(總共 CK 個數據),構建一個 meta-task,作為模型的支撐集(support set)輸入;再從這 C 個類中剩餘的數據中抽取一批(batch)樣本作為模型的預測對象(batch set)。
  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    根據美國貝爾實驗室(belllaboratory)2018年5月19日最新出版的《新創新指南》(newentrepreneursguide),人工智慧能力的發展與突破,有望提高生產性能和生產效率。maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。
  • ...今年參展的產品和技術共分為11個大主題、34個類別,涵蓋了消費...
    【「科技春晚」精彩紛呈,券商理出投資關鍵詞,布局5G手機、無線充電、智能穿戴設備三大賽道】在CES官網看到,今年參展的產品和技術共分為11個大主題、34個類別,涵蓋了消費電子行業的眾多領域,包括5G技術、人工智慧、區塊鏈、雲計算/數據、數字貨幣/加密貨幣、金融科技、量子計算、機器人、流媒體、汽車科技、無人機、AR/VR/XR等。
  • .| 深度學習理論與實戰:提高篇(14)——​Mask R-CNN代碼簡介
    def random_image(self, height, width): """隨機的生成一個specifications 它包括圖片的背景演示和一些(最多4個)不同的shape的specifications。