NeurIPS 2020|:新型自動數據增強方法解讀

2020-12-04 學術頭條

導讀:在NeurIPS 2020上,商湯研究院工具鏈的搜索和決策團隊提出了一項基於權重共享的新型自動數據增強方法。該工作以多項有啟發性的實驗現象為動機,第一次從權重共享角度思考自動數據增強,實現了既高效又有效的增強策略搜索算法。該方法在多個圖像分類數據集上取得了優秀的表現,尤其在CIFAR-10數據集上刷新了當時的SOTA性能。

論文名稱:Improving Auto-Augment via Augmentation-Wise Weight Sharing

背景與挑戰

數據增強是深度學習中被廣泛運用的一項正則化技術,其被用於提升數據分布的多樣性。例如對圖像數據,常用的操作有仿射變換、調整色相/飽和度/曝光、銳化等。最近一些自動數據增強算法被提出,其旨在自動搜索一些數據增強策略(通常可表示為各個操作的概率分布),使得在這些策略下進行訓練的模型可以得到更好的性能表現。這些自動算法已經取得了顯著的成果,在許多任務上遠遠超過了人工設計的增強策略。然而,這項技術仍然存在挑戰:

1.速度:一個最直接的搜索方式是每次從頭訓練模型,以其最終的驗證集性能為指標來評估增強策略並更新。這需要成千上萬次的反覆訓練,開銷巨大。只有Google最早的自動數據增強[1] 使用了這樣的搜索方式。我們把這個搜索方式稱為「原始任務」。

2.可靠性:後續許多自動增強算法選擇犧牲可靠性來換取效率。這些算法大都採用了迭代近似的思想,設計了一項「代理任務」代替「原始任務」,即:只完整地訓練一次模型;每隔一個或數個模型優化迭代步數,就選擇一次指標來評估、更新數據增強策略。然而最近一些神經網絡架構搜索(NAS)的工作指出,對訓練早期的模型進行評估往往是不準確的(早期表現優秀的模型,在後期不一定仍然優秀)。這在我們的實驗中也得到了驗證。如下圖,不同數據增強策略下的模型,在訓練過程中的相對排名變化很大。

一個更理想的自動數據增強算法需要同時兼顧效率與可靠性。為實現這一點,我們觀察了帶有數據增強的訓練過程。通過發現的一些性質,同時藉由NAS領域的權重共享策略,我們提出了一種新型自動數據增強算法。

動機

1.數據增強的性質我們不妨先從另一項正則化手段入手:早停(Early Stopping),即在驗證集誤差開始顯著上升時停止訓練。早停非常符合直覺,其也許能體現過擬合帶來的負面影響往往是在後期才顯露出來的。因此,我們猜想數據增強也有類似性質:數據增強主要是在後期提升模型的泛化能力。為了驗證這一點,我們在CIFAR10上使用Google AutoAug [1]對ResNet18在不同階段進行了數據增強。即:我們始終訓練300輪(epoch)模型,但只在開頭或結尾的Naug輪裡進行數據增強。結果如下圖,藍色實線代表在開頭數個輪次的訓練中帶有數據增強,橙色虛線代表在末尾數個輪次的訓練中帶有數據增強。例如圖中標出的藍點表示在第1至第75個輪次裡使用了數據增強,而在第76至第300個輪次裡未使用。

由圖可見數據增強確實在後期作用更加顯著。例如均只在x輪採用數據增強,那麼將x輪放在訓練後期比放在前期會帶來更大的提升;同時,為了達到相同的精度,在後期進行增強相比在前期進行增強,需要的輪數更少。

2.權重共享的思想既然數據增強在後期更加重要,我們大可利用這一點,嘗試將前期不太重要的階段「共享」起來,只聚焦在後期進行評估和搜索,來達到提升效率的目的。受NAS中權重共享思想的啟發,我們提出了一個新的「代理任務」,它把模型的訓練過程分為前期、後期兩階段。在前期,模型會在一個「共享策略」的增強下進行訓練,得到「共享權重」;在後期我們才真正進行策略評估和搜索,模型會在當前正在被搜索的策略的增強下進行訓練,得到最終的驗證集性能並用於更新策略。

方法介紹

1.問題建模與搜索算法自動數據增強旨在自動搜索能使驗證集性能最好的數據增強策略。原始任務需要反覆從頭訓練模型,並以最終驗證集準確度作為評估指標。這是一個典型的雙層優化問題(ω表示分類器模型的權重,θ表示自動數據增強策略的權重):

直接求解雙層優化問題會非常耗時。而對於我們的分階段代理任務,在早期我們會選取一個能夠代表各種策略的共享策略,在其增強下訓練一個共享的模型權重:

在後期我們則會讓分類器模型繼承早期的共享權重,進行fine-tune和策略搜索:

由於早期訓練使用的策略是共享策略,與搜索過程完全解耦,因此共享權重只需訓練一次即可用於後續的全部搜索,顯著提升了搜索效率。我們將這一權重共享思想稱為「Augmentation-wiseWeight Sharing」。

於是當前問題轉化為:如何選取具有代表性的共享策略?經過推導發現,一個均勻分布下的策略,可以使單獨訓練和共享訓練的增強操作採樣分布之間的KL散度最小。至此,我們便可以得到完整的AWS Auto-Aug搜索算法:

2.搜索空間與搜索策略為了與先前工作進行更公平的對比,我們選擇了與其幾乎一致的搜索空間(我們甚至在搜索空間中去掉了更強大的增強操作:Cutout與Sample Pairing)。對於搜索策略,由於我們提出的方法是通用的,任何啟發式搜索算法均適用。實驗中我們發現PPO強化學習算法(也是Google AutoAug使用的算法)已經有了足夠好的表現。

實驗結果

1.表現對比我們在3個最主流的圖像分類數據集和4個主流模型上進了算法表現對比。結果如下,在各數據集、各模型上我們均取得了最優表現;尤其是在未使用額外數據的CIFAR-10上,在我們搜索得到的數據增強策略下,PyramidNet取得了新的SOTA性能(舊的SOTA性能為Adv. AA [2] 策略下的PyramidNet):

2.時間開銷對比我們以OHL AutoAug [3] 的時間開銷為基準(1x),以WideResNet-28x10在CIFAR-10上使用Cutout的錯誤率為基準(0%),對比各方法的時間開銷和相對誤差降低如下。可見我們的方法在可接受的計算量內取得了很好的表現。

3.代理任務可靠性對比為了驗證我們所選擇代理任務相比其他代理任務的高可靠性,我們計算了在搜索過程中取得的準確度和最終準確度的相關性,結果如圖所示:

4.消融實驗為了驗證我們搜索得到的策略的有效性,我們將我們的策略和Google AutoAug的策略中概率最高的增強操作逐個去除,並觀察性能的變化。結果如下表所示,可見我們搜索得到的策略確實更有效。

5.搜索過程展示最後,我們還展示了我們的策略分布在整個搜索過程中的變化。如下圖所示(左右分別對應CIFAR-10、ImageNet),增強操作在最初均為均勻分布(圖中做了平滑);隨著搜索進程推進,多數操作的概率開始趨向0,而為數不多的數個操作的概率則不斷增大,體現出分化的過程。

結語

在這項工作中我們提出了一種利用權重共享思想的新型自動數據增強方法。該方法很好地解決了自動數據增強的評估效率與評估可靠性之間的矛盾問題,充足的實驗結果也驗證了其的高效性和有效性。最後,我們還期待這項工作中的現象或蘊含的思想能夠對更多的超參數優化工作帶來幫助和啟發。如果您希望作進一步討論,歡迎與我們聯繫:tiankeyu.00@gmail.com。

招聘信息

我們來自商湯研究院,主要專研於全生命周期的AutoML技術(Auto Aug、NAS、Auto Loss、Auto Sampler)和公司的通用檢測模型(包括人臉、人臉人體、車輛結構化、視頻分類、關鍵點等感知模型)等相關研究,組內工作多次被宣傳,成果不但發表在各大會議上,更在公司產品中有落地應用。組內有海外教授擔任相關技術顧問,GPU卡非常豐富,組員背景豐富。感興趣的同學可以投遞簡歷至sunming1@sensetime.com, 實習,校招,正式均可。期待能夠長期實習/在檢測等感知算法或者數學方面有突出的經歷的正式小夥伴。

References

[1] Cubuk, Ekin D., et al. "Autoaugment: Learning augmentation policies from data." arXiv preprint arXiv:1805.09501(2018).[2] Zhang, Xinyu, et al. "Adversarial autoaugment." arXiv preprint arXiv:1912.11188 (2019).[3] Lin, Chen, et al. "Online hyper-parameter learning for auto-augmentation strategy."Proceedings of the IEEE International Conference on Computer Vision. 2019.

相關焦點

  • 深度圖高斯過程 | NeurIPS 2020論文分享第一期
    高斯過程是概率機器學習中的核心方法,憑藉其良好的解析性質和出色的不確定性建模能力,被廣泛應用於各類機器學習問題。採用深度學習層次化建模範式的「深度高斯過程」則進一步增強了其建模能力,拓寬了其應用範圍。然而,絕大多數現有方法不能很好的擴展到圖結構數據。
  • GPT-3獲NeurIPS最佳論文獎,華人學者獲經典論文獎
    曉查 發自 凹非寺 量子位 報導 | 公眾號 QbitAINeurIPS 2020今天正式召開,今年共有本文進一步將分析擴展到獲得Nyström方法的保證。:讓每個工作進程在不同的數據子集上並行運行SGD,並在託管模型參數的共享內存中執行完全異步更新。
  • NeurIPS 2020|用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動構建 來源:財訊網 • 2020-07-13 11:06:30
  • Gartner 2020分析和魔力象限:增強分析和自動生成報告將成為趨勢
    在當前雲生態系統也在影響著人們做選擇決策的時候,增強分析的能力正在成為各個分析和BI平臺的關鍵區別。這個魔力象限將幫助數據和分析者的領導們根據這些變化來發展他們的分析和BI技術組合。到2023年,90%的世界500強公司將把聚合分析治理融入到更廣泛的數據和分析治理計劃中。到2025年,80%的包含電子產品在內的消費品或工業產品將會把設備分析包含在內。到2025年,數據故事將成為最廣泛的消費分析方式,75%的故事將使用增強分析技術自動生成。
  • 新型數據存儲方法採用2D半金屬材料 能耗比傳統方法少100多倍
    蓋世汽車訊 人工智慧和機器學習技術的出現,正通過物聯網、自動駕駛汽車、實時成像處理和醫療領域的大數據分析等新應用,極大地改變這個世界。2020年,全球數據總量預計將達到44ZTB,而且還將繼續增長,超過目前計算和存儲設備的容量。與此同時,到2030年,相關的用電量也將增長15倍,佔全球能源需求的8%。
  • 天衍實驗室推薦系統糾偏方法論文入選NeurIPS-2020
    天衍實驗室推薦系統糾偏方法論文入選NeurIPS-2020 天衍實驗室推薦系統糾偏方法論文入選NeurIPS-2020 2020-12-02 10:05:29  來源:DOIT
  • 我國新型地圖審查能力持續增強
    針對此,審圖中心積極迎戰,一是在部地理信息管理司的指導下部署開展新型地圖產品情況摸查工作,提前對即將送審的新型地圖進行摸底調查,為後續審圖工作贏得了主動。為適應新型地圖快速發展形勢,2020年初,審圖中心專門成立新型地圖研究組,並制定工作方案,著重對高級輔助駕駛地圖、車機版App地圖產品、導航定位精度更高的新版手機端地圖等新型地圖進行情況摸查。
  • 百度EasyDL自研數據增強服務加持AI模型開發
    在 AI 模型開發的過程中,許多開發者被不夠充足的訓練數據擋住了提升模型效果的腳步,一個擁有出色效果的深度學習模型,支撐它的通常是一個龐大的標註數據集。因此,提升模型的效果的通用方法是增加數據的數量和多樣性。但在實踐中,收集數目龐大的高質量數據並不容易,在某些特定領域與應用場景甚至難以獲取大量數據。那麼如何能在有限數據的情況下提升模型的效果呢?
  • 加州伯克利博士:基於隱模型的圖神經網絡設計|NeurIPS 2020論文分享
    近年來,人們對深度學習方法在圖上的擴展越來越感興趣。在多方因素的成功推動下,研究人員借鑑了卷積網絡、循環網絡和深度自動編碼器的思想,定義和設計了用於處理圖數據的神經網絡結構,由此出現了一個新的研究熱點——「圖神經網絡(Graph Neural Networks,GNN)」。
  • 安徽這四家企業自動監測數據弄虛作假
    為切實提高監測數據質量,堅決助力打好汙染防治攻堅戰,近日,安徽省生態環境廳公布了部分重點排汙單位對自動監測數據弄虛作假案例,據了解,通過運維監管,生態環境部門發現這些單位存在篡改、偽造自動監測數據的行為。目前,案件已經由生態環境部門和司法機關依法依規處理。
  • 火災自動報警系統規範解讀_2020年火災自動報警系統規範解讀資料...
    資料目錄 1總則 2術語 3基本規定 4消防聯動控制的設計 5火災探測器的選擇 6系統設備的設置 7住宅建築火災報警系統 8可燃氣體探測報警系統 9電氣火災監控系統 10系統供電 11布線 12典型場所的火災自動報警系統 附錄E探測器安裝間距的極限曲線 附錄F不同高度的房間梁對探測器設置的影響 附錄G按梁間區域面積確定一隻探測器保護的梁間區域的個數內容簡介  本資料是GB50116
  • 「十三五」,我們這樣走過 | 我國新型地圖審查能力持續增強
    據審圖中心核查處負責人狄琳介紹,近年來隨著測繪技術快速發展、數據獲取方式增多,我國地圖產品也隨之增加,陸續出現了實景地圖、三維地圖、智能汽車基礎地圖、傾斜攝影地圖等諸多新型地圖,特別是智能汽車基礎地圖,具有高精度、高豐富度和高集成度等特點,對審圖中心的工作提出了新的挑戰。
  • NeurIPS 2020 | Balanced-Meta Softmax: 長尾視覺識別方案解讀
    點擊查看 導讀:在NeurIPS 2020上,商湯新加坡團隊提出的Balanced-Meta Softmax (BALMS), 針對真實世界中常見的長尾數據分布提出了新的視覺識別方案
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    為此,我們使用直觀的新型變異算子(mutation operators)來導航大型搜索空間。我們認為,演化一旦開始,其輸出就應當是一個經過完整訓練的模型,不需任何人進行參與。這項研究尤其重要的是結果的可重複性、可變性以及計算要求。解讀不論是在學術研究還是產業應用方面,神經網絡都展現了強大的能力。為了解決不同的實際問題,多種網絡架構可根據特定的任務而建立。
  • 新方法實現染色質接觸數據的定量比較和自動特徵提取
    新方法實現染色質接觸數據的定量比較和自動特徵提取 作者:小柯機器人 發布時間:2020/10/22 14:43:11 德國馬克斯普朗克研究所Juan M.
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    此外,該研究中的新型混合搜索算法突破了 stand-alone 和 one-shot 搜索方法的局限,並且有希望應用於其他具有複雜搜索空間的領域。視頻連結:https://v.qq.com/x/page/n3207ugke4j.html?
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    機器之心發布機器之心編輯部人工智慧頂級會議 NeurIPS 2020 將於 12 月 6 日 - 12 日線上舉行。此外,該研究中的新型混合搜索算法突破了 stand-alone 和 one-shot 搜索方法的局限,並且有希望應用於其他具有複雜搜索空間的領域。視頻連結:https://v.qq.com/x/page/n3207ugke4j.html?
  • 雲南:實現新型自動氣象站全覆蓋
    中國氣象報通訊員劉平英 李莉報導 近日,雲南省氣象部門完成全省125個新型自動氣象站的建設和調試啟用工作,各臺站數據正常採集傳輸。至此,雲南省已實現新型自動氣象站全覆蓋。
  • SCY-KN新型智能自動纖維取向度測量儀問世
    多年來,我國測量儀器檢測水平整體處於相對落後狀態,定量不準確,檢測數據不系統、不完整等難題制約了各類高取向纖維原絲、功能性纖維的廣泛應用。「長期以來,相關機構只能通過手工操作的方式測試纖維的取向度和模量,這種方式耗費人工時間長,又容易產生人工操作誤差,研發智能化自動纖維取向度和模量測量儀替代現有的手工操作,提高測試效率和測量精度,顯得尤其迫切。」楊定海說道。