CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法

2020-12-08 雷鋒網

雷鋒網(公眾號:雷鋒網) AI科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。

基於低秩稀疏分解的深度模型壓縮算法——On Compressing Deep Models by Low Rank and Sparse Decomposition

深度學習極大地促進了人工智慧的發展,同時也帶來了新的挑戰:深度神經網絡往往需要消耗巨大的存儲和計算資源。這極大地限制了深度學習在計算能力有限的平臺(如移動手機)上的應用。深度模型壓縮旨在挖掘並去除深度神經網絡中參數和特徵的冗餘信息,從而達到減少網絡參數,降低存儲和計算量的目的。以往的很多壓縮算法基於低秩分解法和剪枝法,但是壓縮效果還有待繼續提升。這篇論文通過對參數矩陣的可視化觀察和研究,發現參數矩陣往往同時具備低秩與稀疏的性質。如圖1所示,低秩部分包含了大量的光滑分量,而稀疏部分含有諸如方向的重要信息。因此,優必選雪梨AI研究院提出了基於低秩稀疏分解的壓縮算法。

圖1:參數矩陣的低秩稀疏分解,低秩與稀疏矩陣參數數目減少至原始矩陣的1/4

為了解決最終精度急劇下降的問題(如圖2),這篇論文進一步提出了一種非對稱的特徵重建方法,該方法使得壓縮網絡的最終輸出與原始網絡的輸出接近,從而降低精度損失。

圖2:逐層的分解近似造成誤差累積

另外,這篇論文提出了一種新的GreBdec算法,該算法極大地加速了分解運算。它還顯著地降低了經過參數矩陣近似後的網絡的精度損失(圖3)。同時,在精度損失很小的情況下,將AlexNet和GoogLeNet分別壓縮至原來的1/10和1/4.5(如表1)。

圖3: 重新訓練前的壓縮率與精度對比,新的方法優於剪枝法和奇異值分解

表1:重新訓練後的壓縮率與精度對比

利用奇異值界定提升深度神經網絡訓練效果和識別精度——Improving training of deep neural networks via Singular Value Bounding

深度學習是近年來圖像識別、語音分析、自然語言處理等人工智慧領域取得突破性進展的關鍵技術。但是,目前主流深度學習模型還是基於隨機梯度下降進行優化的。在優化過程中,對深度模型參數(權重矩陣)解的性質並沒有明確的認識和目標。基於以上考慮,本工作通過對深度線性網絡的理論分析及深度非線性網絡的實驗分析,大膽推斷在深度模型的整個優化過程中保持權重矩陣(近似)正交(如圖4所示),從而更有效地實現學習目標,提升網絡的精度和泛化能力。同時,本工作進一步提出奇異值界定(Singular Value Bounding)的算法,在不增加或少量增加計算量的情況下近似而快速地實現了權重矩陣的正交約束。

圖4:深度網絡權重矩陣流形優化示意圖(左);本工作提出奇異值界定(Singular Value Bounding)算法,近似而快速地實現了權重矩陣的正交約束(右)

批量標準化(Batch Normalization)是實現現代超深網絡有效訓練的關鍵性技術,但其具有使得網絡各層高維特徵空間各個方向信息(前向和後向)傳遞不均衡的潛在風險。基於與上文類似的考慮,本工作進一步提出了有界批量標準化(Bounded Batch Normalization)算法,從而有效實現批量標準化技術和奇異值界定算法的無縫連接。

本工作提出的奇異值界定和有界批量標準化算法能夠用於包括卷積網絡、殘差網絡(ResNet)、寬殘差網絡(Wide ResNet)、稠密連接網絡(DenseNet)等在內的各種主流網絡架構。在CIFAR和ImageNet等圖像識別標準評測資料庫上,奇異值界定和有界批量標準化算法能夠對這些網絡進行顯著且穩定的精度提升,並在CIFAR資料庫上取得目前世界領先的識別準確率。

圖5:基於寬殘差網絡(Wide ResNet),本工作提出的奇異值界定(Singular Value Bounding)和有界批量標準化(Bounded Batch Normalization)算法取得在CIFAR圖像識別標準評測資料庫上領先的識別準確率

CVPR 2017有兩個Workshop,對應了兩個機器視覺的競賽,分別是ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)和VQA(Visual Question Answering)。

ILSVRC 2017就是著名的ImageNet的競賽,今年是最後一屆。其中任務三是視頻物體檢測(Object Detection from Video)競賽,包括四個項目:給定訓練數據條件下的視頻物體識別、額外訓練數據條件下的視頻物體識別、給定訓練數據條件下的視頻物體識別/追蹤,以及額外訓練數據條件下的視頻物體識別/追蹤。優必選雪梨AI研究院與帝國理工學院組成的聯合隊伍IC-USYD都以領先第二名超過5%的成績取得了第一名。在VQA競賽中,優必選雪梨AI研究院與杭州電子科技大學、北卡羅來納大學夏洛特分校組成聯合隊伍HDU-USYD-UNCC也取得了好成績。

ILSVRC 2017視頻物體檢測競賽主要考察在視頻中獲取物體的能力,對於機器人而言這是一項非常重要的工作,例如它在行走過程中就能知道這個場景裡有多少物體,有什麼物體。人眼看到的視覺不是一張張照片,而是連續的視覺信息,未來機器人的視覺系統也將是對連續視覺的理解。試想一下,在家庭環境中,你可以對機器人說「請給我一杯水」,機器人理解了這句話之後,在移動過程中,視覺系統就會尋找這杯水在哪裡,接著去取水並遞給你。

而VQA(視覺問答,Visual Question Answering)以一張圖片或者一段視頻,和一個關於這張圖片的形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是對給定的圖片進行問答。這也是未來機器人通過視覺系統認知和理解世界,並與人互動的關鍵技術。VQA是一種涉及計算機視覺和自然語言處理的學習任務,也是近年來非常熱門的一個研究領域,也是AI落地的一項重要技術領域。

VQA系統需要將圖片和問題作為輸入,結合這兩部分信息,產生一條人類語言作為輸出。針對一張特定的圖片,如果想要機器以自然語言來回答關於該圖片的某一個特定問題,我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。VQA涉及到多方面的AI技術(圖6):細粒度識別(這位女士是白種人嗎?)、 物體識別(圖中有幾個香蕉?)、行為識別(這位女士在哭嗎?)和對問題所包含文本的理解(NLP)。綜上所述,VQA是一項涉及了計算機視覺(CV)和自然語言處理(NLP)兩大領域的學習任務。它的主要目標就是讓計算機根據輸入的圖片和問題輸出一個符合自然語言規則且內容合理的答案。

圖6:圖中展示了視覺問答的基本形式,圖中展示了一位女士鼻子下方鬍鬚的位置掛了兩隻香蕉,同時圖片下方給出了針對這張圖片的兩個問題

與VQA類似——看圖說話(Image Caption)任務也同時涉及到CV和NLP兩個領域,但是與VQA不同的是,看圖說話只需要產生對圖片的一般性描述,而視覺問答根據問題的不同僅聚焦於圖片中的某一部分,而且某些問題還需要一定的常識推理才能做出回答。例如圖7中的第一個問題,你能在這停車嗎?計算機需要讀懂這張圖片還有哪些地方可以停車,哪些地方不可以。而對於看圖說話,則只需要產生一條類似「花園的左邊有一輛車,後邊有一個消防栓」的描述即可。因此,VQA相比看圖說話在圖像語義的理解方面有更高的要求,因此也具有更大的技術挑戰。

圖7:這張圖像試圖說明「回答這個地方是否能停車」(VQA任務)比生成「花園的左邊有一輛車,後邊有一個消防栓」的看圖說話(Image Caption)任務更難

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR 2019:北郵提出新AI模型壓縮算法,顯著降低計算複雜度
    ,保持模型的識別精度無損的前提下,顯著降低模型的計算複雜度,本文帶來技術解讀。人工智慧在眾多計算機視覺領域都取得了很大的成功,然而深度學習(Deep Learning)因其計算複雜度或參數冗餘,在一些場景和設備上限制了相應的模型部署,需要藉助模型壓縮、優化加速、異構計算等方法突破瓶頸。
  • 引入Powerball 與動量技術,新SGD優化算法收斂速度與泛化效果雙...
    對於離散時間模型(優化算法)在有限時間內收斂性的推導是非常困難的。正是這一點促使[1]中作者提出了優化方法的連續時間模型,並分析了它們在有限時間內的收斂性。此外,[1]中指出了對於給定的優化問題,如何選取最優的γ在理論上是開放的。眾所周知,當涉及大規模優化問題時,初始迭代對於給定的計算約束是至關重要的。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    本論文關註解決視頻超解析度的問題,即利用視頻中低解析度的多幀信息,恢復出清晰而真實的高解析度圖像。傳統的超解析度算法處理速度慢,恢復效果嚴重依賴於繁瑣的參數調整,因此難以實用。近期的基於深度學習的算法則由於運動估計不夠準確,難以恢復足夠豐富的真實細節。
  • CVPR 2019Oral論文解讀|百度提出關於網絡壓縮和加速的新剪枝算法
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:百度關於網絡壓縮和加速的論文《 Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration》被 CCF A 類學術會議 CVPR 2019 收錄為 Oral 論文,這篇論文提出了新的基於濾波器的幾何中心(geometric
  • CVPR精彩論文解讀:對當下主流CNN物體檢測器的對比評測
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。在實際應用中,由於不同的場景下有不同的限制和需求,需要根據實際情況權衡選擇最適合的檢測方法。這就需要我們對不同檢測器的性能有更客觀的認識。然而,從這些算法的原始文章很難直接獲得對不同算法在多個維度的對比。一方面,不同方法的原始論文在特徵提取網絡、框匹配方式、框的表示、回歸的Loss函數選擇等方面存在差異(如下表所示)。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    Weinberger,Facebook 人工智慧研究院 Laurens van der Maaten論文地址:https://arxiv.org/abs/1608.06993 論文簡介:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 騰訊優圖CVPR中標論文:不靠硬體靠算法,暗光拍照也清晰
    但除了堆攝像頭和硬體,AI科學家帶來算法方面的新突破。他們提出基於深度學習優化光照的暗光下的圖像增強模型,用端到端網絡增強曝光不足的照片。結果證明,新算法模型,效果超過了市面上一眾當紅的多攝多硬手機。這個新算法由騰訊優圖實驗室提出,王瑞星、沈小勇及賈佳亞是作者,論文已入選CVPR 2019.
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    華人不僅佔據了論文作者的半壁江山,國內眾多人工智慧公司也已摩拳擦掌要在 CVPR 大會上大顯身手了。本文中,我們將盤點國內外人工智慧公司在 CVPR 2017 上展現的技術,以及即將舉辦的精彩活動。文後我們附上了機器之心此前報導過的 CVPR 2017 論文。  產業界 CVPR 2017 論文  有眾多業界公司參與了 CVPR 2017。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    By蔣思源2017年7月12日  深度學習常常需要大量的時間和機算資源進行訓練,這也是困擾深度學習算法開發的重大原因。雖然我們可以採用分布式並行訓練加速模型的學習,但所需的計算資源並沒有絲毫減少。而唯有需要資源更少、令模型收斂更快的最優化算法,才能從根本上加速機器的學習速度和效果,Adam算法正為此而生!
  • CVPR論文解讀:非常高效的物體檢測Mimic方法
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。,加入大小模型之間feature map的監督,使得mimic的效果會更好。現場問答在2017 CVPR現場與論文的作者李全全進行的討論與交流:Q:本文為何使用 spatial pyramid pooling進行feature map的sample,是否考慮使用其他方式例如ROI-pooling?
  • 《自然》收錄「四代AlphaGo」論文,學習算法有望廣泛使用
    」 AlphaGo Zero 去掉了人類知識部分,而是只給 AI 提供規則,然後通過自我博弈,就能學習出自己的策略;「孫兒」 AlphaZero 則可通過完全信息,利用泛化能力更強的強化學習算法來做訓練,並學會不同的遊戲,如圍棋、西洋棋和日本將棋。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    論文連結:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf2017年最佳論文密集連接的卷積網絡Densely Connected Convolutional Networks核心內容:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深
  • 當微軟研究院遇上CVPR,四篇論文搶鮮看 | CVPR 2017
    CVPR將於2017於7月21日至7月26日舉行,雷鋒網AI科技評論將從夏威夷帶來一線報導。該會議舉辦期間,雷鋒網將圍繞會議議程及獲獎論文展開系列專題報導,敬請期待。>論文作者:Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua論文連結:https://arxiv.org/abs/1703.09210論文摘要:據雷鋒網(公眾號:雷鋒網)了解,該項工作提出了一種基於神經網絡的SytleBank算法。
  • CVPR 2017精彩論文解讀:綜合使用多形態核磁共振數據的3D生物醫學...
    論文的故事還在繼續相對於 CVPR 2017收錄的共783篇論文,即便雷鋒網(公眾號:雷鋒網)(公眾號:雷鋒網) AI 科技評論近期挑選報導的獲獎論文、業界大公司論文等等是具有一定特色和代表性的,也仍然只是滄海一粟,其餘的收錄論文中仍有很大的價值等待我們去挖掘,生物醫學圖像、3D視覺、運動追蹤、場景理解、視頻分析等方面都有許多新穎的研究成果
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    接近原圖的圖像重構算法此前,相關研究已有採用神經網絡進行圖像壓縮的算法,而隨著近年來生成式對抗網絡興起,採用GANs生成以假亂真圖像的算法也不在少數。如果能有辦法將二者結合,圖像壓縮的效果是不是會更好、更接近於人類的感知?
  • 學界| 模型的泛化能力僅和Hessian譜有關嗎?
    選自 einstein作者:Huan Wang 等機器之心編譯參與:Geek AI、劉曉坤Salesforce 近日提出了一篇探究模型泛化能力的論文,他們在 PAC-Bayes 框架下將解的平滑性和模型的泛化能力聯繫在了一起,並從理論上證明了模型的泛化能力不僅和 Hessian 譜有關,和解的平滑性、參數的尺度以及訓練樣本的數量也有關
  • ...的「統一場」:從與 WL 算法、組合優化算法的聯繫看 GNN 的表達...
    典型的 GNN 模型可以通過如下所示的消息傳遞框架形式化定義。GraphSAGE-mean(詳見 Hamilton 等人於 2017 年發表的論文「Inductive representation learning on large graphs」)
  • ICLR 2018最佳論文:基於梯度的元學習算法
    於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網絡和元學習算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。