即插即用新卷積:提升CNN性能、速度翻倍

2021-01-12 機器之心Pro

近期,來自 Facebook AI、新加坡國立大學、奇虎 360 的研究人員聯合提出了一種新的卷積操作 (OctConv),用於替代現有的通用卷積。這款新卷積不僅佔用更少的內存和計算,還有助於提高性能。

卷積神經網絡(CNN)在很多計算機視覺任務中都取得了卓越的成就,然而高準確率的背後,卻是很高的冗餘度和不可忽視的計算開銷。

圖 1. 現有的卷積操作(1x1 卷積)

對於一個卷積操作而言(圖 1),每個位置都是由一個 D 維特徵向量 表示,而特徵提取,則是通過滑動卷積,對每個位置分別處理得到對應的特徵。

但是,這種為每個位置都分別存儲一份特徵表達,並分別一一處理的策略明顯是不合理的。因為,對於圖像而言,相鄰位置往往描述的是同一個語義,從而共享一部分特徵。

圖 2. AlexNet 的第一層卷積核

與此同時,CNN 所學習到的卷積核,也並非全是高頻卷積核,如 圖 2 所示。這意味著,一部分卷積專注於提取「低頻特徵」,而另一部分則專注於提取「高頻特徵」。對於低頻卷積所對應的特徵圖而言,我們也許只需要保留它的低頻信號即可,沒必要存儲在高解析度下的特徵圖。

圖 3. 本文的:(a) 主要動機; (b,c) 新的特徵表達方式;(d) OctConv

如圖 3 所示,本文提出將 特徵圖分為兩組:低頻特徵(藍色)和 高頻特徵(橙紅),並將空間上變化較為緩慢的「低頻特徵圖」存儲在低解析度的張量中,共享相鄰位置間的特徵。而本文所提出的 OctConv 則是一種可以直接作用在該特徵表達下的卷積操作。它包含每個頻率自身狀態的更新(綠色箭頭),以及頻率間的信息交互(紅色箭頭)。

圖 4. OctConv 的設計細節

Octave Convolution(OctConv)的命名應該是受到了 SIFT 特徵的啟發。而 Octave 是八個音階的意思,音樂裡降 8 個音階代表頻率減半。本文通過一個 Octave 將 高頻 和 低頻 特徵隔離到不同的組中,並將低頻的解析度減半。

研究人員指出 OctConv 可以直接用於替代現有卷積,並且即插即用,無需調參,也不影響 CNN 的網絡結構以及模型大小。由於 OctConv 專注於降低 CNN 空間維度上的冗餘,因此它與現有專注於網絡拓補結構設計,以及減少網絡特徵容易的方法是正交和互補的。

實驗表明,用 OctConv 替代普通卷積可以穩定提高現有的 2D CNN 網絡(包括 ResNet、ResNeXt、DenseNet、MobileNet、SE-Net)提高其在 ImageNet 上的圖像識別的性能,此外也可以穩定提高 3D CNN 網絡(C2D、 I3D)並在 Kinetics(行視頻動作識別數據集)上取得了更佳的性能。配備了 OctConv 的 Oct-ResNet-152 甚至可以媲美當前最佳的自動搜索的網絡 (NAS, PNAS 等)。

論文:Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution

論文地址:https://export.arxiv.org/pdf/1904.05049第三方復現結果:https://github.com/terrychenism/OctaveConv在自然圖像中,信息以不同的頻率傳輸,其中較高頻率通常以細節進行編碼,而較低頻率通常以總體結構進行編碼。同樣地,一個卷積層的輸出特徵圖也可視為不同頻率的信息混合。

在本文中,研究人員提出基於頻率對混合特徵圖進行分解,並設計了一種新的 Octave 卷積(OctConv)操作,以存儲和處理較低空間解析度下空間變化「較慢」的特徵圖,從而降低內存和計算成本。

與現有多尺度方法不同,OctConv 是一種單一、通用和即插即用的卷積單元,可以直接代替(普通)卷積,而無需對網絡架構進行任何調整。OctConv 與那些用於構建更優拓撲或者減少分組或深度卷積中通道冗餘的方法是正交和互補的。

實驗表明,通過用 OctConv 替代普通卷積,研究人員可以持續提高圖像和視頻識別任務的準確率,同時降低內存和計算成本。一個配備有 OctConv 的 ResNet-152 能夠以僅僅 22.2 GFLOP 在 ImageNet 上達到 82.9% 的 top-1 分類準確率。

方法

在本節中,研究人員首先介紹了用來降低特徵圖中空間冗餘的特徵表示,接著描述了直接作用於該表徵的 Octave 卷積(圖 4)。研究人員還討論了實現細節,展示了如何將 OctConv 融入分組和深度卷積架構。

圖 4. OctConv 的設計細節

表 1:對於低頻特徵所使用的低頻所佔比例α的不同,所帶來的理論性能提升。

當α=0 時(即沒有低頻成分),OctConv 就會退化為普通卷積。注意,無論比例α選擇是多少,OctConv 的參數數量都是與常規卷機一致的(如圖 5 所示)。

圖 5. OctConv 的卷積核

圖 3:採用卷積降採樣後的特徵圖

採用卷積降採樣後的特徵圖,在進一步上採樣後,將導致整體向右下方漂移,影響特徵融合。

這裡,有一點很有意思。研究人員指出,通過卷積降採樣會導致特徵圖無法準確對齊。並推薦使用池化操作來進行降採樣。

實驗評估

在本節中,研究人員驗證了提出的 Octave 卷積對於 2D 和 3D 網絡的效能和效率。研究人員首先展示了 ImageNet 上圖像分類的控制變量研究,然後將其與當前最優的方法進行了比較。之後,研究人員使用 Kinetics-400 和 Kinetics-600 數據集,展示了提出的 OctConv 也適用於 3D CNN。每一類別 / 塊的最佳結果在論文中以粗體字顯示。

圖 4:ImageNet 上的控制變量研究結果。

配備 OctConv 的模型較基準模型更有效和更準確。上圖每一行的黑色標記●表示沒有使用 OctConv 的基準模型。數字表示比例α。橫坐標表示計算開銷(FLOP),縱坐標表示準確率。

表 2:ResNet-50 的實測時間開銷(Inference time)以 2.0 GHz(單線程

表 3:下採樣的控制變量實驗和 ImageNet 上的 inter-octave 連通性。

表 4:ImageNet 分類準確度。

表 4:ImageNet 分類準確度。研究人員通過調整輸入圖像尺寸,檢測網絡對不同大小分布的物體的識別率。

表 5:小型模型的 ImageNet 分類結果。

表 6:中型模型的 ImageNet 分類結果。

表 7:大型模型的 ImageNet 分類結果。

大型模型的 ImageNet 分類結果。配備有 OctConv 的模型名稱顯示為黑色粗體,相關研究的性能數據來自相應論文。使用 CuDNN v10.03 在一個英偉達 Titan V100 (32GB) 上以 flop16 評估網絡的訓練內存開銷及速度。採用神經架構搜索的工作標記為 (3)。研究人員將多數例子中的批大小設為 128,但對於大到 GPU 內存無法負荷的網絡,他們將批大小減小為 64(帶標記的)或 32(帶標記的)或 8(帶§標記的)。

表 8:視頻中的動作識別、控制變量研究,使用 ResNet50 的所有模型。

相關焦點

  • 電池創企Addionics研發即插即用法 可提升任何種類電池的性能
    【能源人都在看,點擊右上角加'關注'】導Addionics致力於改變電池的化學反應動力學,以提升電池性能、續航裡程、壽命、安全性、充電時間以及成本效益。Addionics致力於改變電池的化學反應動力學,以提升電池性能、續航裡程、壽命、安全性、充電時間以及成本效益。當可充電電池領域的其他公司都在尋求新型電池化學物質以及更便宜的材料時,Addionics的科學家想出了一種開箱即用的製造方法,無論何種電池,其性能都可得到提升。
  • 癱瘓患者演示首個「即插即用」的大腦假體
    「即插即用」性能的實現證明了ECoG電極陣列在BCI應用中的價值。一個ECoG陣列包括一個小體積電極墊,可以通過手術將其放置在大腦表面。它可以長期、穩定地記錄神經活動,並已被用於癲癇患者的癲癇發作監測。在這種情況下,作者為癱瘓受試者植入ECoG陣列,以測試其作為長期、穩定的BCI植入物是否具有安全性和有效性。
  • 首個「即插即用」大腦假體已經出現
    科學家已經完成了有史以來第一次演示一個由癱瘓者控制的「即插即用」大腦假體。該系統使用機器學習來幫助個人僅用大腦控制計算機界面。與大多數腦機接口(BCI)不同,該AI無需大量的日常培訓即可工作。Ganguly說,這導致了系統性能的持續改進:
  • Trinamic用於步進伺服即插即用智能步進電機系統
    TRINAMIC運動控制有限公司宣布推出其最新的 PANdrive™智能電機產品線, 增加了PD-1378該產品配備了性能卓越的步進伺服「藉助現成的高集成電機機構,機器製造商可以提高效率並縮短新設備的上市時間。憑藉行業領先的運動控制功能集成化設計,工程師可以更專注於使其產品與眾不同的那些方面,卓越的運動控制由Trinamic來實現。
  • 陳根:腦機接口突破限制,即插即用?
    即使不進行任何日常校準,在44天的使用期內,性能也不會下降,用戶也可以連續幾天不使用它,而且性能只會略有下降。這項「即插即用」的技術是腦機接口領域一個重大突破,為腦機接口使用的持續性和便捷性提供了幫助,其研究已發表在《自然生物技術》雜誌上。
  • 轉向使用即插即用的分層 DFT 的好處
    二、為什麼即插即用是合理的?即插即用這種方法帶來的一個重要好處就是,在設計過程中你可以在內核層面提前完成所有工作。這降低了許多類型的風險,因為任何問題都可以提前解決,讓最終晶片測試架構和結果變得更可預見。在內核層面做更多的測試工作還能讓各單獨的開發團隊獨立工作,然後向做晶片集成工作的同事交付標準的 DFT 操作和測試圖案等數據。
  • 首個即插即用腦機接口系統誕生,不再擔心「記憶」被格式化
    「即插即用」腦機接口系統,圖源Noah Berger撰文|王一葦[4] 最近,加州大學舊金山分校的一項新研究發現,通過將機器學習技術應用於腦機接口系統,癱瘓者的大腦可以記住操控電腦光標的感覺,即使不再進行日常訓練,這部分記憶力可以留存一個半月甚至更久。腦機接口設備因此可實現 「即插即用」 效果。
  • 首個腦機接口即插即用設備誕生
    與非網 9 月 15 日訊,最近,加州大學舊金山分校的一項新研究發現,通過將機器學習技術應用於腦機接口系統,癱瘓者的大腦可以記住操控電腦光標的感覺,即使不再進行日常訓練腦機接口設備因此可實現 「即插即用」 效果。一枚小小的植入晶片可以讓癱瘓的人恢復觸覺 、操控假肢 、使用平板電腦 。近年來,多項植入式腦機接口(Brain-Computer Interface,BCI)系統研究給了癱瘓者便利生活的希望。但以往實驗中,癱瘓者的操控能力往往隔一段時間就會 「格式化」,需要重新訓練大腦來習得這種能力。
  • 人工智慧之卷積神經網絡(CNN)
    當輸入層的特徵維度變得很高時,這時全連接網絡需要訓練的參數就會增大很多,計算速度就會變得很慢。  而在卷積神經網絡CNN中(下面右圖),卷積層的神經元只與前一層的部分神經元節點相連,即它的神經元間的連接是非全連接的,且同一層中某些神經元之間的連接的權重w和偏移b是共享的,這樣大量地減少了需要訓練參數的數量。
  • Seaborough推出通用型即插即用LED燈管解決方案
    Paul van Doorn先生表示,OneTLed 電子迴路技術兼容各類電子或磁性驅動器,可直接改造傳統的螢光燈管,也可安裝於所有直管LED產品上,有效解決目前LED燈管改造的不兼容問題,並消除燈具驅動器在使用時產生的安全隱患,是市面上唯一一款真正意義上即插即用的LED燈管解決方案。
  • UCSF開發全球首個即插即用腦機設備
    加州大學舊金山分校(UCSF)威爾神經科學研究所(Weill Institute for Neurosciences),在本周披露了基於皮質腦電圖(ECoG)數組的腦機接口(BCI),宣稱它能夠長期且穩定地記錄腦部神經活動,無需每天重置,堪稱是全球首個即插即用的腦機設備,可用來操縱滑鼠指標
  • 首個即插即用、機器學習+腦機接口,使癱瘓患者輕鬆控制電腦光標
    這項可以讓大腦和機器學習系統隨著時間推移建立穩定「夥伴關係」的「即插即用」技術的成功,正是過去所有腦機接口(BCI)研究工作一直追求的目標。受試者還參與了一項臨床試驗,該試驗旨在測試使用 ECoG 陣列來讓癱瘓患者控制假肢手臂和手,不過在這篇新論文中,參與者使用植入物實現的是控制屏幕上的電腦光標。此外,研究人員還開發了一種腦機接口算法,利用機器學習將 ECoG 電極記錄的大腦活動與用戶所需的光標移動相匹配。最初,研究人員遵循每天重置算法的標準做法。參與者首先想像特定的脖子和手腕動作,同時看著光標在屏幕上移動。
  • 舒爾MV7主播話筒評測:即插即用 輕鬆獲得專業級錄音效果
    而在確保內容本身之餘,好的硬體也能有效提升視頻、直播的觀感,比如好的錄像設備。而作為視頻不可或缺的一部分,聲音也是非常地重要。因此在錄製過程,我們同樣需要一款優秀的麥克風。近日,舒爾推出了一款全新的MV7主播話筒,專門針對主播人群,幫助他們錄製自己的聲音,接下來我們就來看下它的表現。
  • H3C 全埠供電的POE交換機 即插即用
    H3C 全埠供電的POE交換機 即插即用 2019-05-16 05:23:00   [  中關村在線
  • 一位中國博士把整個CNN都給可視化了,可交互有細節,每次卷積ReLU...
    它用TensorFlow.js加載了一個10層的預訓練模型,相當於在你的瀏覽器上跑一個CNN模型,只需要打開電腦,就能了解CNN究竟是怎麼回事。而且,這個網頁工具還可以實現交互,只要點擊其中任何一個格子——就是CNN中的「神經元」,就能顯示它的輸入是哪些、經過了怎樣細微的變化。甚至,連每一次卷積運算都能看得清。
  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    根據美國貝爾實驗室(belllaboratory)2018年5月19日最新出版的《新創新指南》(newentrepreneursguide),人工智慧能力的發展與突破,有望提高生產性能和生產效率。maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    最近,Facebook 提出了一項新技術 Data-efficient image Transformers(DeiT),需要更少的數據和更少的計算資源就能生成高性能的圖像分類模型。該研究提出的蒸餾策略進一步提升了性能,表明 class token 和蒸餾 token 能夠提供對分類任務有用的補充信息:基於這兩個 token 的分類器性能顯著優於單獨的 class 分類器和蒸餾分類器,不過單獨的分類器依然超過了蒸餾基線方法。
  • 微軟MR 頭顯評測:即插即用的平民 VR 體驗到底如何?
    我們日前拿到了這臺設備,它用起來到底如何呢?下面是我們的體驗。常規的造型,但安裝起來相當簡單惠普 MR 有目前 VR 頭顯最主流的造型,內置屏幕的頭顯,加上兩個控制器。中間還拖著一根長長的連接線。設備外殼主要是工程塑料材質。雙目的解析度均為 1440* 1440,LCD 材質,最高支持 90Hz 刷新率。重量控制比較理想,不會感覺到明顯負重。
  • 飛利浦推壽命達四萬小時的即插即用LED燈管
    而飛利浦的這款Master LEDTube InstantFit是第一款可以讓用戶不用重新布線或者更改原有日光燈結構的即插即用型LED日光燈。整個過程非常簡單,甚至無需電工的參與,普通人就可以完成替換。  這種革新對於個人用戶來說也許沒有什麼太大的影響,但是大型賣場或者辦公區域如果使用這種新型LED燈光,無疑在節省能源的同時還可以剩下更多的改造成本和時間。
  • 自注意力可以替代CNN,能表達任何卷積濾波層
    卷積層卷積神經網絡由多個卷積層和子採樣層組成。每個卷積層可以學習大小為K x K的卷積濾波器,輸入和輸出的維度分別是Din和Dout。用一個4D核張量(維度為K x K x Din x Dout)和一個偏置向量b(維度為Dout)來對層進行參數化。下面這張動圖便展示了如何計算q的輸出值。