性能超越谷歌!依圖團隊提出新一代移動端網絡架構MobileNeXt

2020-10-27 新智元


【新智元導讀】AIoT的時代即將來臨,移動端智能應用呈爆發式增長,但是大型神經網絡在移動端的性能制約了AI在移動端的推廣。最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。


《三體》中羅輯沉睡了兩個世紀後,在位於地下一千多米的城市中醒來;《流浪地球》中,行星推進器下500米的地下城。

在那裡是一樣的人間煙火,只不過人們生活的場景從地上轉移到了地下。

未來,隨著人類棲息空間的不斷延展和拓寬,現存的城市管理體系註定會失效,必將需要一個高度複雜的智能系統來維護,而打造智慧城市,要完成交通、供水、供電、供氣、通訊、環保等等基礎設施的數位化建設,但是很少有城市關注到。

而上海的「一網統管」系統做到了,小到每一個路燈、井蓋、消防栓,大到26000多公裡的地下管網,都被連接了起來,讓城市的精細化管理成為可能。

這個「一網統管」得益於依圖自主研發的人工智慧晶片,人工智慧算力在城市管理中規模化落地的可能性被大大釋放,為此還得到了央視《新聞聯播》「十三五」成就巡禮專題的點讚。

一直以來,依圖都在智能基礎設施的建設方面狠下功夫,在基礎的算法和晶片方面不斷突破新的邊界。



移動端神經網絡新架構MobileNeXt,超越谷歌MobileNet和何愷明團隊ResNet


基礎網絡結構是各種算法的基礎,直接影響模型最終的性能,這方面高質量的研究很稀缺。

依圖研發團隊近期在 ECCV 2020 發表了新論文,通過分析當前主流移動端網絡的倒殘差模塊的優勢與劣勢,提出了一種改良版本MobileNeXt,大大提升了移動端神經網絡的性能。

論文:

https://arxiv.org/abs/2007.02269

代碼:

https://github.com/yitu-opensource/MobileNeXt

在不使用SE等性能提升模塊的條件下,相比於主流的MobileNetV2,MobileNeXt在相同計算量下可達到1.7%的分類精度提升。

此外,新提出的沙漏模塊可用於改良神經網絡自動化搜索的搜索空間,在使用相同搜索算法的情況下,加入沙漏模塊的搜索空間可以在CIFAR10的數據集上取得更高效的模型架構,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型。

圖一:ImageNet 測試結果



倒殘差和線性瓶頸,讓移動端神經網絡徹底「通車」


谷歌在2017年提出了專門為移動端優化的輕量級CNN網絡,該研究最大的亮點是提出了深度可分離卷積(depthwise separable convolution)。

傳統卷積

傳統卷積分兩步,每個卷積核與每個特徵圖按位相乘,然後再相加,此時,計算量為∗∗∗∗∗,其中為特徵圖尺寸,為卷積核尺寸,M為輸入通道數,N為輸出通道數。

深度可分離卷積

而谷歌提出的深度可分離卷積,將普通卷積拆分成了一個深度卷積depthwise和一個逐點卷積pointwise。

首先按通道進行按位相乘,通道數沒有改變;然後將第一步的結果,使用1*1的卷積核進行傳統的卷積,此時通道數可以進行改變。使用了深度可分離卷積,其計算量變為∗∗∗∗+1∗1∗∗∗∗。

深度可分離卷積的計算量下降了,也是MobileNet V1能夠實現加速的主要原因。

MobileNet V1的速度雖然提高了,但是低維信息映射到高維的維度較低,經過ReLU後再映射回低維時損失比較大,所以谷歌在V1的基礎上,又引入了倒殘差(Inverted Residuals)和線性瓶頸(Linear Bottlenecks)兩個模塊,使得MobileNetV2降低時延的同時精度也有所提升。

MobileNetV2 提出的倒殘差模塊現在已經成為移動端網絡的基礎構建模塊。

倒殘差模塊中間粗兩頭細,擴張-卷積-壓縮,提取更高維信息

線性瓶頸模塊,將最後的ReLU替換成線性激活函數,進一步降低信息損失

通過在高維度使用深度可分離卷積,倒殘差網絡可以有效降低計算開銷,保證模型性能。

同時,瓶頸結構的連接方式可以有效降低點操作的數量、減少所需要的內存訪問,進而進一步減小硬體上的讀取延時,提升硬體執行效率。


倒殘差梯度回傳易「走丟」,沙漏型瓶頸結構讓梯度不「抖動」


倒殘差結構的不足

然而,MobileNetV2集中於瓶頸結構的網絡連接方式可能會造成優化過程中的梯度回傳抖動,進而影響模型收斂趨勢,導致模型性能降低。

現有研究表明:(1) 更寬的網絡可以緩解梯度混淆問題並有助於提升模型性能;(2)逆殘差模塊中的短連接可能會影響梯度回傳。

為了解決MobileNetV2中瓶頸結構導致的優化問題,依圖團隊重新思考了由ResNet提出的傳統瓶頸結構的連結方式,這種連接方式把梯度主要集中在較高維度的網絡層,可以減少梯度抖動、加速網絡收斂。

於是便有了一種新的網絡設計模塊--沙漏型瓶頸結構,既能保留高維度網絡加速收斂和訓練的優勢,又能利用深度卷積帶來的計算開銷收益,減少高維特徵圖的內存訪問需求,提高硬體執行效率。

圖二:a.瓶頸結構,b.倒殘差結構,c.新的沙漏型瓶頸結構

依圖團隊把跳躍連結放置在高維度神經網絡層,並使用深度卷積來降低計算開銷,然後使用兩連續層1x1卷積來進一步降低計算開銷的效果。

圖三:Sandglass Block的具體原理設計

可以看到,Sandglass Block可以保證更多的信息從bottom層傳遞給top層,進而有助於梯度回傳;執行了兩次深度卷積以編碼更多的空間信息。

基於上面的分析,我們來看依圖研發團隊都做了哪些設計優化。

降維和升維的位置

在原始的倒殘差模塊中先進行升維再進行降維。

基於前述分析,為確保高維度特徵的短連接,依圖團隊對兩個1x1卷積的順序進行了調整。假設 表示輸入張量, 表示輸出張量(註:此時尚未考慮深度卷積),那麼該模塊的計算可以寫成如下形式,

見圖三b中的中間兩個1x1卷積。

高維度短連接

依圖團隊並未在瓶頸層間構建短連接,而是在更高維特徵之間構建短連接(見圖三b)。更寬的短連接有助於更多信息從輸入F傳遞給輸出G,從而有更多的梯度回傳。

與此同時,由於高維度的跳躍連結會導致更多的點加操作、需求更多的內存讀取訪問,直接連接高維度跳躍連結會降低硬體執行效率。

一種新穎的殘差跳躍連接可以解決這一問題:即只使用一部分信息通道進行跳躍連結。這一操作可直接減少點加操作和特徵圖大小,進而直接提升硬體執行效率。

實驗結果顯示,僅使用一半的信息通道進行跳躍連結不會造成精度損失。

引入更豐富的空間信息

我們知道,1x1卷積有助於編碼通道間的信息,但難以獲取空間信息,而深度卷積可以。因此依圖團隊沿著倒殘差模塊的思路引入了深度卷積來編碼空間信息。

但跟倒殘差模塊不同的是深度卷積的位置。

倒殘差模塊的深度卷積在兩個1x1卷積之間,而1x1卷積會降低空域信息編碼,因此依圖團隊將深度卷積置於兩個1x1卷積之外(見圖三b中的兩個3x3深度卷積),這樣就能確保深度卷積在高維空間得到處理並獲得更豐富的特徵表達。

(該模塊可以採用如上公式進行描述)

激活函數的位置

線性瓶頸層有助於避免特徵出現零化現象導致的信息損失,因此在降維的1x1卷積後不再添加激活函數。同時最後一個深度卷積後也不添加激活函數,激活函數隻添加在第一個深度卷積與最後一個1x1卷積之後。

基於上述考慮,得到了該文所設計的新穎的倒殘差瓶頸模塊,結構如下表所示。

圖四:新的殘差瓶頸模塊的具體連接方式

基於上述所示沙漏瓶頸模塊,依圖團隊提出了一種新的移動端網絡架構MobileNeXt。

圖五:依圖團隊提出的新的移動端網絡架構

依圖一直是穩紮穩打型的選手,做研究也很務實、不追求多和雜,梯度抖動就解決抖動的問題,損失大就想辦法降低損失,追求的是實用和落地,而不是去刷各種比賽的榜單。

既然是基於移動端的網絡,依圖團隊在Google Pixel手機上進行了測試,看MobileNeXt跟MobileNet V2相比,性能有多少提升。

在PyTorch環境下,可以看到MobileNeXt在不同大小的模型下,精度均優於MobileNetV2,而且模型越小,這種優勢越明顯。

圖六:與MobileNetV2 對比的實驗結果

當與後訓練量化方法結合時,MobileNeXt也有很大優勢。(後訓練量化可以簡單看做模型壓縮)

圖七:當與量化方法結合的時候,MobileNeXt的優勢會更加明顯

硬體執行效率方面,僅使用部分新系統進行跳躍連結可有效提高硬體執行效率。值得注意的是,在進行殘差信息通道實驗的時候,沒有使用任何額外的監督信息(比如知識蒸餾)。

圖八:使用不同信息通道數目對模型精度的影響

目標檢測方面,相比MobileNetV2, 使用MobileNeXt的基礎架構,可帶來0.9mAP的收益。

圖九:在PascalVOC 2017 數據集上的實驗驗證

神經網絡搜索方面,為驗證信息處沙漏模型的高效性,依圖團隊使用新提出的沙漏模型對神經網絡搜索的搜索空間進行了擴充。在使用相同搜索算法的情況下,基於擴充空間的搜索結果可以得到0.13% 的精度提升,同時減少25% 的參數量。

圖十:使用相同搜索算法時基於擴充空間的搜索結果

透過現象看本質,是研發團隊成功設計沙漏型瓶頸模塊及MobileNeXt的根本所在,可以看到,基礎領域的進展最終靠的還是自身紮實的基本功。

從這個層面講,依圖早已不再是傳統意義上的CV公司,而是憑藉基礎算法的優勢和晶片的加持,逐漸成長為新一代的AI算力廠商。

未來,不光移動端,雲端和邊緣端的廠商也將從依圖的軟硬體協同算法創新中獲益,節約自主開發的算力成本,更好地驅動整體業務。

從看、聽再到本質的理解,機器的智能在不斷進化中逐漸邁向更高的維度,我們看到,依圖正在努力將智能化的理論不斷付諸實踐,成為AI落地的引路人。


參考連結:

https://arxiv.org/abs/2007.02269

https://github.com/yitu-opensource/MobileNeXt

https://www.cnblogs.com/dengshunge/p/11334640.html

https://bbs.cvmart.net/articles/2861




相關焦點

  • 華為提出高效輕量級網絡GhostNet, 性能超越MobileNetV3
    華為的研究員團隊並沒有避免冗餘的特性映射,而是傾向於採用它們,提出了一種新的Ghost模塊,從簡單的操作中獲取更多的特徵映射。在不改變輸出特徵映射大小的情況下,與vanilla卷積神經網絡相比,該Ghost模塊中所需的參數總數和計算複雜性都有所降低。基於Ghost模塊,建立了一種高效的神經網絡架構,即GhostNet。作者首先在基準神經架構中替換原始卷積層,以證明Ghost模塊的有效性,然後驗證GhostNet在幾個基準視覺數據集上的優越性。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 谷歌大腦提出NAS-FPN:一種學會自動架構搜索的特徵金字塔網絡
    在過去幾年裡,用於圖像分類和目標檢測的深度卷積網絡在架構搜索方面取得了很大進展。與預測圖像類別概率的圖像分類不同,目標檢測在大範圍的尺度和位置上檢測和定位多個目標時存在自身的挑戰。為了解決這個問題,很多現代目標檢測器普遍使用金字塔特徵表示,它表示具有多尺度特徵層的圖像。在這篇論文中,谷歌大腦的 Quoc V. Le 等研究者提出了一種新的架構搜索方法 NAS-FPN。
  • 騰訊提出NumNet+模型,超越谷歌登DROP排行榜第一名
    新智元楊靜、科大訊飛胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS張崢、依圖顏水成、地平線黃暢、autowise.ai黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的AI未來。
  • Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度
    特別是MixNet-L模型在傳統的移動端設備條件(<600M FLOPS)下達到了最新的SOTA結果,ImageNet top-1精度為78.9%。3.3在移動端網絡上評估MixConv性能ImageNet分類性能對比:COCO檢測性能對比:實驗
  • 中國移動提出「3層+4面」新6G網絡邏輯架構
    會上,中國移動研究院首席專家,6G項目總監劉光毅回顧了6G的願景與需求,揭示了6G無線網絡架構變革的三大驅動力,包括現網挑戰、新業務需求和新技術發展趨勢;詳細闡述了6G網絡需要具備的按需服務、至簡、柔性、智慧內生、安全內生和數字孿生等技術特徵和內涵;同時提出包含「資源層、功能層和服務層」以及「數據收集面、智能面、共享與協作面、安全面」的「3層+4面」6G網絡邏輯架構。
  • 7 Papers|GCN大佬公開博士論文;谷歌提出擴展型BERT架構
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括谷歌提出的擴展型 BERT 架構 Tapas,以及 GCN 作者的博士論文。BERT 架構。
  • 英偉達發布新一代GPU架構用於數據中心,遊戲玩家得再等等
    黃仁勳在演講中花大量篇幅展示了新的安培架構GPU,以顯示其與前一代伏特架構相比更為強大的性能。作為安培架構首發的NVIDIA A100搭載高達540億個電晶體,是目前當前最大的7納米製程晶片。在滿足AI運算需求上, 新GPU可使AI運算性能提高20倍;在數據中心高性能計算用途方面,NVIDIA A100相較前一代可提高2.5倍運算量。
  • 12倍端到端加速,陳天奇創業公司OctoML提克服二值網絡瓶頸新方法
    為了使高精度模型適應此類平臺,最近的研究方向已經開始探索如何使這類網絡運行更快,同時佔用更少的內存。從較高的層面來說,這些技術遵循兩種策略:體系架構優化和近似優化。架構優化涉及尋找連接層的新方法,以減少延遲或提高參數有效性。MobileNet 和 SqueezeNet 是兩個以移動端為重點的體系架構。
  • 「超大核」加持,ARM新一代移動架構超越蘋果A系列
    2019 年對於 Arm 來說是振奮人心的一年,在移動端這家公司仍像往常一樣如日中天,而在雲服務領域,越來越多公司(如亞馬遜、華為等)推出了基於 Arm 架構的伺服器晶片,但正如我們所知,Arm 晶片仍有其不足之處:過去幾年中,Arm 的移動端 Cortex 內核一直活在蘋果高度定製版 CPU 微體系結構的陰影之下,蘋果的「黑科技」總是有辦法能展現超出人們預期的能力——即使前年的 A12 單核性能也比驍龍 865 高出 15%(當然,多核性能是後者更好了)。這些差距儘管有技術上的原因,當然也有 Arm 在商業上的考量。
  • 比當前SOTA小4倍、計算量少9倍,谷歌最新目標檢測器EfficientDet
    最近,谷歌大腦 Mingxing Tan、Ruoming Pang 和 Quoc V. Le 提出新架構 EfficientDet,結合 EfficientNet(同樣來自該團隊)和新提出的 BiFPN,實現新的 SOTA 結果。在計算機視覺領域,模型效率的重要性越來越高。近日,谷歌大腦團隊 Quoc V.
  • 谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT
    新智元報導 來源:arxiv、知乎等編輯:大明【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標杆BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!近日,谷歌大腦主任科學家Quoc V.
  • 圖神經網絡讓預估到達準確率提升50%,谷歌地圖實現新突破
    近日,DeepMind 與谷歌地圖展開合作,利用圖神經網絡等 ML 技術,極大了提升了柏林、東京、雪梨等大城市的實時 ETA 準確率。很多人使用谷歌地圖(Google Maps)獲取精確的交通預測和預估到達時間(Estimated Time of Arrival,ETA)。這是很重要的工具,尤其是當你將途經交通擁堵路段或者需要按時參加重要的會議。
  • Tolly測評:華為新一代NetEngine AR企業路由器性能全面領先
    測評結果表明,華為新一代NetEngine AR路由器相比於業界其他主流廠商的同級別路由器,性能全面領先,充分滿足企業未來3-5年數位化轉型過程中,業務快速增長對網絡的需求,引領企業廣域網絡邁向極速互聯新時代。
  • 華為提出移動端部署神經網絡新方法
    深度學習模型,尤其是深度卷積神經網絡(DCNN),在多個計算機視覺應用中獲得很高的準確率。但是,在移動環境中部署時,高昂的計算成本和巨大的耗電量成為主要瓶頸。而大量使用乘法的卷積層和全連接層正是計算成本的主要貢獻者。
  • 華為提出移動端部署神經網絡新方法
    因此,對於移動/IoT 推斷應用而言,模型優化、模型規模縮小、加速推斷和降低能耗是重要的研究領域。 目前已有多種方法可以解決這一需求,這些方法可分為三類: 第一類方法是從頭開始構建高效模型,從而得到新型網絡架構,但要找出最適合的架構需要嘗試多個架構變體,而這需要大量訓練資源; 第二類方法是從大模型開始。
  • 深度| 逐層剖析,谷歌機器翻譯突破背後的神經網絡架構是怎樣的?
    選自SMERITY機器之心編譯谷歌神經機器翻譯(GNMT)論文《Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》描述了一種將深度學習融入產品的有趣方法。該論文和架構是不標準的,在很多情況下偏離學術論文中的架構。
  • 中國移動自主研發「玉衡系統」,進一步促進5G端到端性能提升
    打開APP 中國移動自主研發「玉衡系統」,進一步促進5G端到端性能提升 李佳茵 發表於 2020-05-15 16:09:27
  • China Mobile moves into next generation of communications
    China Mobile Communications Corp, the parent company of China's biggest telecom carrier, China Mobile, announced it will offer commercial fourth-generation telecom services in 340 Chinese cities next
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。