超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...

2021-01-10 雷鋒網

雷鋒網 AI 科技評論:港中文最新論文研究表明目前的深度神經網絡即使在人工標註的標準資料庫中訓練(例如 ImageNet),性能也會出現劇烈波動。這種情況在使用少批量數據更新神經網絡的參數時更為嚴重。研究發現這是由於 BN(Batch Normalization)導致的。BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用,在學術界和工業界均被廣泛使用。港中文團隊提出的 SN(Switchable Normalization)解決了 BN 的不足。SN 在 ImageNet 大規模圖像識別數據集和 Microsoft COCO 大規模物體檢測數據集的準確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請參考 arXiv:1806.10779 和代碼 Github。

背景解讀:*ImageNet 是大規模圖像識別資料庫。由史丹福大學李飛飛教授在 2009 年建立。在 ImageNet 中識別率的競賽,被稱為計算機視覺的奧林匹克競賽。*Microsoft COCO 是目前使用最廣泛的物體檢測與分割數據集。每年舉辦的 COCO Challenge 吸引了大量國內外著名企業與實驗室參與,包括 Google,Facebook,Berkely 等等。*BN(批歸一化)是由 Google 在 2015 年提出的一種歸一化方法。至今已經被引用了 5000 餘次,在學術界與工業界廣泛使用。幾乎所有主流神經網絡結構都使用了BN,例如微軟亞洲研究院提出的殘差神經網絡(ResNet,CVPR 2016 best paper)和由康奈爾大學提出的 DenseNet(CVPR 2017 best paper)。*SN 是港中文團隊最新提出的歸一化方法。其在 ImageNet 的識別率超越了其它歸一化方法。使用 SN 訓練的 ResNet50 達到了 77.5% 的 top-1 識別率。這是目前在 ResNet50 模型上匯報的最高結果,超過了主流深度學習平臺所提供的模型,例如 TensorFlow、PyTorch、Caffe 等。值得注意的是,這個結果甚至超過了 101 層的殘差神經網絡模型。該模型已經開源並提供下載。

我們先從一張圖來看批歸一化 BN 遇到的瓶頸。下圖縱軸表示一個 ResNet 神經網絡模型在 ImageNet 中的圖像識別準確率(越高越好),橫軸表示訓練時更新網絡的樣本數量從大到小排列。藍色線、紅色線、和綠色線分別表示使用 Google 的 BN,Facebook 的 GN 和港中文提出的 SN 訓練模型的準確率。可以看出,當用於更新網絡的樣本數量(又稱「批量」)減小時,BN 模型的識別率急劇下降。例如批量等於 16 時,BN 模型相比 SN 模型識別率下降了 11%。當批量等於 8 時,BN 模型的圖像識別率跌至 50% 以下。

BN 導致性能下降?

BN(批歸一化)是一種歸一化方法。歸一化一般指把數據的分布變成一個均值為 0 和方差為 1 的分布。要達到此目的,BN 在進行歸一化操作時需要估計訓練數據的均值和方差。由於訓練數據量很大(ImageNet 有上百萬數據),估計這些統計量需要大量的運算。因此,這兩個統計量一般是利用一小批數據來估計的。然而,當批量較小時,例如上圖的 32,這些統計量估計不準確,導致識別率開始明顯下降。正如需要估計全校的平均分,只統計一個班級是不準確的。因此,BN 會導致性能損失。

既然 BN 在小批量當中效果變差,我們能否避免使用小批量進行訓練呢?

為什麼需要小批量學習?

原因有兩點。首先,在深度神經網絡的訓練過程中,往往需要更新數億級別的參數,而在很多實際應用中需要訓練的圖片大小又很大(例如 1000x1000 以上),使得能夠放到 GPU 中的圖片數量很少(通常小於 2)。這種情況經常出現在物體檢測、場景分割、和視頻識別等任務當中,它們在自動駕駛和視頻監控中有廣泛應用。然而,如前面的圖所示,網絡訓練時的樣本數量減少(小批量),使訓練變得困難。總體來說,批量越小,訓練過程越不穩定。Facebook 提出的組歸一化(GN)正是為了解決上述問題。

圖為物體檢測與分割示例

其次,深度神經網絡一般使用大量 GPUs 進行訓練。訓練方法可以分為兩大類:同步訓練與異步訓練。同步訓練代表網絡參數的更新需要在多個 GPU 當中同步;異步訓練是一種去中心化的方法。它比同步訓練的好處在於,網絡參數的更新可以在每個 GPU 當中單獨進行,不需要同步。然而,由於網絡佔用大量內存,單獨一塊 GPU 只能放下少量訓練樣本,妨礙了參數在一塊 GPU 中更新,使得異步訓練無法進行。

從上述原因得知,一種對批量不敏感的技術是非常必要的。

港中文的解決方案

為了解決上述問題,港中文團隊提出了自適配歸一化 SN(Switchable Norm)。它統一了現有的歸一化方法,例如批歸一化 BN,實例歸一化 IN(Instance Norm 在 16 年提出並在 arXiv:1607.08022 公開),層歸一化 LN(Layer Norm 由 Geoffrey Hinton 等在 16 年提出在 arXiv:1607.06450 公開),和組歸一化 GN 等。SN 允許為神經網絡中不同的歸一化層自動學習不同的歸一化操作。與強化學習不同,SN 使用可微分學習,使得選擇歸一化操作能夠和優化網絡參數同時進行,保證優化效率的同時還保持高性能。下圖為自適配歸一化的直觀解釋。它通過學習不同的歸一化方法的權重係數來選擇不同的操作。

如何解決 BN 的問題

下圖左邊表示一個神經網絡的子網絡,而一個完整的神經網絡往往由多達幾十個子網絡構成。前面提到的 ResNet 和 DenseNet 也可以歸為這種結構。在一個子網絡裡,可以有多個 BN 層。換句話說,一個神經網絡可以有上百個 BN 層。

我們稱一個 BN 所在的層為一個歸一化層。那麼為什麼在主流神經網絡結構中,所有的歸一化層都只採用 BN 呢?

目前幾乎所有的神經網絡的全部歸一化層都使用同樣的歸一化操作。這是因為手工為每一個歸一化層指定操作需要進行大量的實驗驗證,耗時耗力。

由於這個問題,使得深度學習系統達不到最優性能。直觀地說,港中文團隊相信歸一化操作應該可以通過學習得到;不同的歸一化層應該允許自由的使用不同的歸一化操作。如上圖右邊所示,子網絡中的所有歸一化層會使用 SN。它能夠為每一個歸一化層學習歸一化策略,可能是 BN,IN,LN,GN 或者它們的組合。

SN 學習不同歸一化策略的組合,避免了 BN 對小批量特別敏感的問題。

如最前面的圖所示,當批量逐漸減小時,SN 的識別率保持最優。

SN 與 GN 的比較

組歸一化 GN 是由 Facebook 何愷明等最新提出的歸一化方法。該方法為了解決批歸一化 BN 在小批量優化時性能下降明顯的問題。直觀地說,批量越小,訓練越不穩定,訓練得到的模型識別率越低。何愷明團隊通過大量的實驗驗證了 GN 的有效性:例如在 ImageNet 當中,GN 在小批量條件下獲得的識別率遠遠高於 BN 的識別率。但是,在正常批量條件下,GN 的識別率並不如 BN。

如前面所說,SN 是為了解決在神經網絡不同的歸一化層中自動學習歸一化操作而提出的。港中文團隊發現,SN 與 GN 一樣能夠在小批量條件下獲得高識別率。並且,SN 在正常批量條件下超過 GN,甚至還超過了 BN。例如,在批量為 256 的情況下,用 SN 來訓練的 ResNet50 在 ImageNet 的精度可以達到 77.5% 以上,而用 GN 和 BN 來訓練的網絡的精度分別為 75.9% 和 76.4%。

結果

港中文團隊驗證了自適配歸一化 SN 在多個視覺任務中的性能,包括圖像識別、物體檢測、物體分割、視頻理解、圖像風格化和循環神經網絡如神經網絡結構搜索。下面以物體檢測為例,比較 SN,BN 和 GN 在 Microsoft COCO 物體檢測數據集中的檢測結果。

與圖像分類不同,對於物體檢測和分割任務,每個 GPU 中圖片的數量通常只有 1 到 2 張。在這種情況下,BN 的效果會明顯下降。而 SN 能夠有效拓展到不同的檢測模型,以及不同的深度學習平臺上。下表展示了 SN 在 Mask R-CNN 和 Faster R-CNN 上的結果,可以看到 SN 在各項精度指標下保持了領先。

原論文同時展示了 SN 在圖像風格化,以及網絡結構搜索上的效果,詳情可見論文。

相關文獻:

1. BN: S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015

2. GN: Y. Wu and K. He. Group normalization. arXiv:1803.08494, 2018

3. SN:Ping Luo, Jiamin Ren, Zhanglin Peng,Differentiable Learning-to-Normalize via Switchable Normalization,arXiv:1806.10779,2018

相關焦點

  • ECCV 2018獎項公布:德國團隊獲最佳論文,吳育昕、何愷明上榜
    除了介紹本屆大會的參會與論文接收情況,會議主辦方在周三的晚宴中還公布了今年的獲獎論文:最佳論文最佳論文獎由來自德國航空航天中心、慕尼黑工業大學的團隊獲得。值得一提的是港中文大學教授、商湯科技聯合創始人湯曉鷗是頒獎委員會成員之一。
  • 單細胞交響樂4-scRNA的歸一化
    歸一化的目的就是去除細胞間與真實表達量無關的技術因素,方便後續比較。這裡需要說明:歸一化與批次處理還是不同的。歸一化不管實驗的批次因素,只考慮細胞中存在的技術誤差(比如測序深度),而批次處理既要考慮實驗批次,又要考慮技術誤差(比如不同實驗時間、不同細胞系、不同文庫製備方法、不同測序方法、不同測序深度)。
  • 批歸一化Batch Normalization的原理及算法
    一、BN提出的背景意義本文的背景文獻是:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,Batch Normalization
  • 透徹分析批歸一化Batch Normalization強大作用
    批量歸一化(BN)是神經網絡的標準化方法/層 通常BN神經網絡輸入被歸一化[0,1]或[-1,1]範圍,或者意味著均值為0和方差等於1。 BN對網絡的中間層執行白化本文只關注BN為什麼工作的這麼好,如果要詳細理解BN詳細算法,請閱讀另一篇文章《批歸一化Batch Normalization的原理及算法》,本文從以下六個方面來闡述批歸一化為什麼有如此好的效力:(1)激活函數
  • 人工智慧算法:訓練神經網絡中的批量歸一化(附代碼)
    這組操作涉及到進入BN層的輸入值的偏移量的標準化,歸一化,重新縮放和移位。激活層:這對神經網絡內的輸入執行指定的操作。該層在網絡內引入了非線性。本文實現的模型將利用激活函數:整流線性單元(ReLU)和softmax。
  • NOREVA: 代謝組學數據標準化工具
    此外,當前的代謝組學研究從病例對照研究(N = 2)明顯轉移到多類別(N> 2)問題,這對於揭示某些生理過程,疾病轉移等的機制至關重要。當然,課程和多類別的代謝組學已經引起了極大的關注,數據歸一化對於消除這些研究中不必要的生物學/實驗變異至關重要。但是,沒有可用的工具(包括僅側重於病例對照研究的NOREVA 1.0)可以有效地評估時程/多類代謝組學數據的歸一化方法的性能。
  • ICCV 2017獎項公布:最大贏家何愷明獲最佳論文,參與最佳學生論文
    今日,大會公布了本屆 ICCV 的獲獎論文,Facebook AI 研究員何愷明獲得最佳論文獎,同時是最佳學生論文的作者之一。算上此前在 CVPR 2009、CVPR 2016 上的兩篇「最佳論文」,何愷明現在已獲得了四個最佳論文稱號。
  • 【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!
    Facebook成為最大贏家,其中Facebook 人工智慧實驗室研究科學家何愷明包攬最佳論文獎(Marr Prize)和最佳學生論文獎。賈揚清Caffe團隊獲得Everingham prize等。1996年,他在微軟研究院任職期間,提出一種基於運動的全景圖像拼接模型,採用L-M算法,通過求圖像間的幾何變換關係來進行圖像匹配。此方法是圖像拼接領域的經典算法,RichardSzeliski也因此成為圖像拼接領域的奠基人。
  • 引爆機器學習圈:「自歸一化神經網絡」提出新型激活函數SELU
    此外,Github 上已有人做出了論文中提出的 SELUs 與 ReLU 和 Leaky ReLU 的對比,我們也對此對比進行了介紹。為了更魯棒地訓練深度卷積神經網絡(CNN),批歸一化發展成了歸一化神經元激勵值為 0 均值和單位方差 [20] 的標準方法。層級歸一化(Layer normalization)[2] 確保了 0 均值和單位方差,因為如果上一層的激勵值有 0 均值和單位方差,那麼權值歸一化 [32] 就確保了 0 均值和單位方差。
  • 交大90後男神博士:3年看1800篇論文,研發成果超越谷歌,還入選福布斯精英榜
    在號稱平均年齡僅24歲的曠視研究院,28歲的他已經開始領導團隊,為來自清華、北大等名校的員工討論和規劃研究方向,決定著公司下一個突破性的基礎技術;在高智商選手雲集的AI領域,自詡靠&34;成功的他,研發出多個重量級算法模型,已然成為AI領域最具影響力的學者之一。他就是曠視科技研究院基礎模型組負責人、西安交通大學2017屆校友張祥雨。
  • 滑動窗口也能用於實例分割,陳鑫磊、何愷明等人提出圖像分割新範式
    選自arXiv作者:Xinlei Chen、Ross Girshick、Kaiming He、Piotr Dollar機器之心編譯滑動窗口在目標檢測中非常重要,然而最近何愷明等研究者表明,這個範式同樣可以用於實例分割。
  • 理解Batch Normalization
    經典論文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出了Batch Normalization 批標準化的概念,towardsdatascience上一文《Intuit and Implement: Batch Normalization
  • 不同歸一化方法的比較
    批處理歸一化(BN)已經成為許多先進深度學習模型的重要組成部分,特別是在計算機視覺領域。它通過批處理中計算的平均值和方差來規範化層輸入,因此得名。要使BN工作,批大小必須足夠大,通常至少為32。組歸一化(GN)是一種最新的規範化方法,可以避免利用批處理維,因此與批處理大小無關。不同的歸一化方法為了促進GN的表述,我們將首先看一下以前的一些標準化方法。x ← (x - ) / √( + )對於每個係數x輸入特性。和的均值和方差計算的集合S係數,和是一個小的常數數值穩定,避免除零。唯一的區別是集S是如何選擇的。
  • 何愷明Mask R-CNN精度提升,一半輸入數據量...
    這就是阿里達摩院提出的提出的圖像分析新方法:「頻域學習」(Learning in the Frequency Domain)。  核心要義,是省略圖像壓縮/解壓縮中計算量最大的步驟,直接利用頻域特徵來進行圖像推理,減少系統中模塊之間的數據傳輸量,從而提升系統性能。
  • 中美人工智慧高被引學者榜單:孫劍、何愷明、李飛飛進前5
    上海交大Acemap團隊近日開發排名系統AceRankings,根據在CCF推薦會議期刊發表論文的引用量,對中國、美國Top 50機構和學者進行了排名,清華、微軟分列中美機構榜首,一大批學者榜上有名。人工智慧研究機構、學者大排名!
  • 香港留學:排名斷崖式下跌的港中文和港理工,可惜了!
    2019年11月23日,英國《泰晤士高等教育 THE》公布了最新的世界大學學科排名,其中深受暴行困擾的香港高校出現了斷崖式下跌,尤其是香港中文大學和香港理工大學。可惜了,香港中文大學,香港理工大學!成立於1963年10月10的香港第二所大學——香港中文大學,是香港最好的公立研究型大學之一,也是一所亞洲頂尖,享譽國際的大學,更是香港唯一擁有諾貝爾獎的主任教的大學。
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    機器之心報導參與:李亞洲、杜偉昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 發布動作識別和檢測庫 MMAction,同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的算法實現。