效果比肩CNN| 華為諾亞方舟實驗室提出加法神經網絡蒸餾技術

2021-02-15 arXiv每日學術速遞

為諾亞方舟實驗室聯合雪梨大學發布論文《Kernel Based Progressive Distillation for Adder Neural Networks》,提出了針對加法神經網絡的蒸餾技術,ResNet-34和ResNet-50網絡在ImageNet上分別達到了68.8%和76.8%的準確率,效果與相同結構的CNN相比持平或超越,該論文已被NeurIPS2020接收。
論文連結:https://arxiv.org/pdf/2009.13044.pdf研究背景深度卷積神經網絡(CNN)被廣泛應用於諸多計算機視覺領域的實際任務中(例如,圖片分類、物體檢測、語義分割等)。然而,為了保證性能,神經網絡通常是過參數化的,因此會存在大量的冗餘參數。近期提出的加法神經網絡(ANN),通過將卷積操作中的距離度量函數替換為L1距離,極大減少了神經網絡中的乘法操作,從而減少了網絡運行所需的功耗和晶片面積。然而,ANN在準確率方面和同結構的CNN相比仍然有一定差距,在某種程度上限制了ANN在實際應用中對CNN的替換。為了提高ANN的性能,我們提出了一種基於核的漸進蒸餾方法。具體的,我們發現一個訓練好的ANN網絡其參數通常服從拉普拉斯分布,而一個訓練好的CNN網絡其參數通常服從高斯分布。因此,我們對網絡中間層的特徵圖輸出進行核變換後,使用距離度量函數估計教師網絡(CNN)和學生網絡(ANN)之間的損失。對於最後一層,我們使用傳統的KL散度估計兩個網絡之間的損失。同時,在訓練中我們使用隨機初始化的教師網絡,與學生網絡同時訓練,以減少兩個網絡之間參數分布的差異性。實驗表明,我們的算法得到的ANN能夠在CIFAR-10,CIFAR-100,ImageNet等標準圖片分類數據集上達到或超越同結構CNN的準確率。對網絡中間層特徵圖輸出進行核交換ANN本身精度不好的原因是原始ANN在反向傳播時,使用的是近似的梯度,導致目標函數無法向著最小的方向移動。傳統KD方法應用到ANN上效果不佳的原因,在於ANN的權重分布是拉普拉斯分布,而CNN的權重分布為高斯分布,因此分布不同導致無法直接對中間層的featuremap使用KD方法。本方法首先將核變換作用於教師網絡和學生網絡的中間層輸出,並使用1x1卷積對新的輸出進行配準。之後,結合最後一層的蒸餾損失與分類損失,得到整體的損失函數。具體的,給定ANN的第m層輸入和權重,以及CNN第m層的輸入和權重,他們的輸出分別為。其中,的定義分別為:之後對ANN和CNN的輸出分別進行拉普拉斯核變換和高斯核變換:得到核變換後的輸出,其中是可學習的參數。之後,對核變換後的輸出分別過1x1的卷積層,得到最後的中間層輸出:其中,代表是1x1卷積操作。為卷積操作中的參數。最後,我們對輸出y求MSE loss,使得ANN的中間層輸出學習CNN。即:除了上述中間層的loss之外,我們還希望ANN學習CNN最後一層的輸出,以及ANN關於目標任務的loss(這裡以分類任務舉例)。對於ANN的最後一層,在分類任務上輸出的是每一個類別的概率分布,因此希望它同時學習CNN的概率分布,以及ground-truth的概率分布(ground-truth為one-hot vector),因此構造的loss function為:將該loss與之前的loss結合,就得到最終的目標方程:

漸進式蒸餾算法

傳統的蒸餾方法使用固定的,訓練好的教師網絡來教學生網絡。這樣做會帶來問題。由於教師網絡和學生網絡處於不同的訓練階段,因此他們的分布會因為訓練階段的不同而不同,所以會導致KD方法效果不好。因此我們採用漸進式蒸餾方法,讓教師網絡和學生網絡共同學習,有助於KD方法得到好的結果。即目標函數變為:

其中b為當前的step。

實驗結果我們在CIFAR-10、CIFAR-100、ImageNet三個數據集上分別進行了實驗。下表是在CIFAR-10和CIFAR-100數據集上的結果,我們使用了VGG-small、ResNet-20與ResNet-32作為教師網絡,同結構的ANN作為學生網絡。可以看到,使用了本方法得到的ANN在分類準確率上相比原始的ANN有大幅度的提升,並且能夠超過同結構的CNN模型。表格中#Mul表示網絡中乘法操作的次數。#Add表示加法操作次數,#XNOR表示同或操作的次數。

下表展示了在ImageNet數據集上的結果,我們使用ResNet-18與ResNet-50網絡作為教師網絡,同結構的ANN作為學生網絡。結果顯示我們的方法得到的ANN在分類準確率上相比同結構CNN基本相同或能夠超越。

 

最後,我們展示了ResNet-20,ANN-20與通過本方法得到的PKKD ANN-20模型在CIFAR-10與CIFAR-100數據集上的訓練精度曲線與測試精度曲線。

 圖中的實線表示訓練精度,虛線表示測試精度。在兩個數據集中,CNN的訓練和測試準確率都超過了原始的ANN模型。這是因為在訓練原始ANN時,反向傳播的梯度使用的是L2 norm來近似,因此梯度方向是不準確的。當使用本方法後,CNN的訓練過程可以指導ANN的訓練,因此可以得到更好的結果。同時,知識蒸餾方法能夠幫助學生網絡防止過擬合,這也是我們的方法有最低的訓練精度和最高的測試精度的原因。

—  —

相關焦點

  • NeurIPS 2020線上分享 | 華為諾亞方舟:超越CNN的加法神經網絡
    針對這些問題,Hanting Chen 等提出了不需要大量浮點數乘法運算的加法神經網絡(Adder Neural Network, ANN),不僅實現了比低位寬二進位神經網絡更好的性能,還對未來深度學習硬體加速器的設計產生深遠影響。
  • 華為開源只用加法的神經網絡:實習生領銜打造,效果不輸傳統CNN
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI沒有乘法的神經網絡,你敢想像嗎?無論是單個神經元的運算還是卷積運算,都不可避免地要使用乘法。然而乘法對硬體資源的消耗遠大於加法。如果不用乘法,全部改用加法應該可以讓運算速度大大提升。去年年底,來自北京大學、華為諾亞方舟實驗室、鵬城實驗室的研究人員將這一想法付諸實踐,他們提出了一種只用加法的神經網絡AdderNet(加法器網絡)。一作是華為諾亞方舟實習生,正在北大讀博三。
  • 華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢
    技術峰會在深圳舉行,華為諾亞方舟實驗室主任李航博士在會上做了題為《自然語言處理中的深度學習:過去、現在和未來》的演講,雷鋒網(公眾號:雷鋒網)根據現場演講整理成本文。所以,未來自然語言處理深度學習的發展趨勢應該是一個神經處理和符號處理的結合的混合模式。我在闡述這個觀點的過程當中,也會介紹一下華為諾亞方舟實驗室做的一些工作。華為諾亞方舟實驗室,在整個華為的戰略裡,是肩負著人工智慧、機器學習和數據挖掘方面的研究任務,既有偏長期的工作,也有偏短期的、產品化的工作,那麼我今天主要是講一講,我們已經進行的基礎性長期性的工作。
  • 只有加法也能做深度學習,北大華為等提出AdderNet,性能不輸CNN
    來自北京大學、華為諾亞方舟實驗室、鵬城實驗室的研究人員提出了一種加法器網絡AdderNet,去掉卷積乘法,並設計一種新的反向傳播算法,結果也能訓練神經網絡。而且實驗結果證明了,這種方法在MNIST、CIFAR-10、SVHN上已經接近傳統CNN的SOTA結果。
  • 7 Papers|MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    機器之心&ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有 MIT 學神胡淵鳴等開源的自動微分版太極以及北大、華為諾亞方舟實驗室等主張以加法運算代替深度神經網絡中的乘法運算。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。 據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。
  • MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    機器之心機器之心&ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文有 MIT 學神胡淵鳴等開源的自動微分版太極以及北大、華為諾亞方舟實驗室等主張以加法運算代替深度神經網絡中的乘法運算
  • 華為方舟實驗室計算機視覺CTO田奇:大算力大數據時代六大前沿CV探索
    自2018年6月份底加入華為諾亞方舟實驗室,並擔任計算視覺首席科學家,田奇教授便一直主導諾亞方舟實驗室視覺方向的前沿研究,構建華為在各視覺業務下的算法競爭力和護城河。然而田奇教授和華為諾亞視覺實驗室成員一直都非常低調,媒體曝光率較少。華為諾亞視覺實驗室具體的研究方向和最新進展等相關信息也難以從網絡上獲得。
  • 華為諾亞方舟開源哪吒、TinyBERT模型,可直接下載使用
    機器之心整理 參與:一鳴 華為諾亞方舟實驗室開源了一批優秀預訓練語言模型,性能更好、使用更方便。 昨日,華為諾亞方舟實驗室的 NLP 團隊開源了兩個重要的預訓練語言模型——哪吒和 TinyBERT。這兩個模型可以直接下載、預訓練和微調。華為語音語義首席科學家劉群在微博上轉發了這一消息。
  • 諾亞方舟實驗室李航:深度學習還局限在複雜的模式識別上
    華為技術有限公司諾亞方舟實驗室主任李航認為,機器學習、數據挖掘和人工智慧的研究,對華為未來的智能通信網絡、智能企業管理、智能信息助手三個應用方向很有幫助,比如機器學習對SDN的控制能力、網絡優化、人機互動、跨國交流等,都可以發揮很大的作用。
  • 給卷積神經網絡動動刀:加法網絡探究
    卷積神經網絡(CNN)在計算機視覺任務中有著廣泛的應用,然而它的運算量非常巨大,這使得我們很難將CNN直接運用到計算資源受限的行動裝置上。為了減少CNN的計算代價,許多模型壓縮和加速的方法被提出。然而我們現在進行的是adder運算,相當於將卷積中的乘法改為加法,所以需要重新定義這個矩陣運算:out = adder.apply(W_col,X_col)可以看到adder.apply就是重新定義的對應加法神經網絡的矩陣運算。
  • 華為突破封鎖,對標谷歌Dropout專利,開源自研算法Disout
    乾明 金磊 發自 凹非寺量子位 報導 | 公眾號 QbitAI美國持續封鎖,華為的技術自研,已經深入到了AI底層算法層面上,並開始將研究成果面向業界開源。剛剛,華為諾亞實驗室開源Disout算法(地址在文末),直接對標谷歌申請專利的Dropout算法。而且,在多項任務上,華為的新算法都超過了Dropout。
  • 華為突破封鎖,對標谷歌,開源自研算法Disout,多項任務表現更佳
    美國持續封鎖,華為的技術自研,已經深入到了AI底層算法層面上,並開始將研究成果面向業界開源。剛剛,華為諾亞實驗室開源Disout算法(地址在文末),直接對標谷歌申請專利的Dropout算法。華為到底提出的Disout到底如何,也得以呈現。華為自研Disout:多項AI任務超越Dropout在申請專利時,谷歌將Dropout定義為「解決神經網絡過擬合的系統和方法」。
  • 華為諾亞方舟實驗室主任李航:神經符號處理開啟自然語言處理新篇章
    面向未來,自然語言處理技術將如何發展和演進?在哪些方面會有新突破?7 月 23 日,第二屆語言與智能高峰論壇在北京舉行,華為諾亞方舟實驗室主任李航以《神經符號處理開啟自然語言處理新篇章》為題作了報告,就自然語言領域的發展、神經符號處理對自然語言處理的影響等方面闡述了他的看法。
  • 把CNN裡乘法全部去掉會怎樣?華為提出移動端部署神經網絡新方法
    選自arXiv作者:Mostafa Elhoushi 等機器之心編譯參與:魔王、杜偉前不久,機器之心報導過北大、華為諾亞等合著的一篇論文,探討了不用乘法用加法能不能做深度學習最近,我們又看到華為的另一篇論文,這一次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。深度學習模型,尤其是深度卷積神經網絡(DCNN),在多個計算機視覺應用中獲得很高的準確率。但是,在移動環境中部署時,高昂的計算成本和巨大的耗電量成為主要瓶頸。
  • 把CNN裡的乘法全部去掉會怎樣?華為提出移動端部署神經網絡新方法
    ,探討了不用乘法用加法能不能做深度學習。最近,我們又看到華為的另一篇論文,這一次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。 華為的這篇論文提出兩種新型運算——卷積移位和全連接移位,用按位移位和按位取反來取代乘法,從而降低 CNN 的計算成本和能耗。這一神經網絡架構族即為 DeepShift 模型。該方法主要使用 2 的冪或按位移位從頭開始執行 one-shot 訓練,或者對預訓練模型進行轉換。
  • 華為視覺研究路線圖:三大挑戰,六項計劃
    在2018年加入華為之前,一直在德克薩斯大學聖安東尼奧分校任教,是2016年多媒體領域 10 大最具影響力的學者,並於當年入選IEEE Fellow。田奇博士加入之後,華為諾亞方舟在計算機視覺領域的研究突飛猛進。
  • 華為諾亞方舟實驗室主任李航:長期記憶是人工智慧未來發展方向
    華為諾亞方舟實驗室主任李航做了主題為「人工智慧的未來——記憶、知識與語言」的演講,本文為其演講速記整理:各位專家、同仁大家好,非常高興有機會和大家交流。今天的報告中我想從記憶、知識、語言的角度展望一下人工智慧技術的未來發展趨勢。我的報告分幾部分,首先我們一起看一下記憶和智能的關係。
  • 華為「2012實驗室」 「中國黑科技最多的地方」 首次開放
    這次,華為向我們展示了 2012 實驗室中的諾亞方舟實驗室和先進熱技術實驗室,諾亞方舟實驗室是華為 AI 研發中心,其中主要包括智慧終端的計算視覺、語音助手、推薦搜索;智慧企業的供應鏈大腦、問答系統等。現在手機的攝像頭算法就是源自於該實驗室。熱技術實驗室則聚焦高集成封裝、高密空冷、高效液冷/相變,展示器件低熱阻、仿生散熱器、相變液冷、聲學降噪材料、流場可視化測試等技術。
  • 華為諾亞方舟實驗室開源即插即用的多用卷積核(NeurIPS 2018)
    華為諾亞方舟實驗室開源了一種即插即用的卷積核,該項工作發表在NeurIPS 2018上,論文題目為《Learning Versatile Filters