與模型無關的元學習,UC Berkeley提出一種可推廣到各類任務的元...

2020-12-05 機器之心Pro

學習如何學習一直是機器學習領域內一項艱巨的挑戰,而最近 UC Berkeley 的研究人員撰文介紹了他們在元學習領域內的研究成功,即一種與模型無關的元學習(MAML),這種方法可以匹配任何使用梯度下降算法訓練的模型,並能應用於各種不同的學習問題,如分類、回歸和強化學習等。

智能的一個關鍵特徵是多面性(versatility):完成不同任務的能力。目前的 AI 系統擅長掌握單項技能,如圍棋、Jeopardy 遊戲,甚至直升機特技飛行。但是,讓 AI 系統做一些看起來很簡單的事情,對它們來說反而比較困難。取得 Jeopardy 冠軍的程序無法進行對話,專業的直升機特技飛行控制器無法在全新的簡單環境中航行,比如定位起火現場、飛過去然後撲滅它。然而,人類可以在面對多種新情況時靈活應對並自發適應。怎樣才能使人工智慧體獲得這樣的多面性呢?

人們正在開發多種技術來解決此類問題,我將在本文中對其進行概述,同時也將介紹我們實驗室開發的最新技術「與模型無關的元學習」(model-agnostic meta-learning)。

論文地址:https://arxiv.org/abs/1703.03400

代碼地址:https://github.com/cbfinn/maml

現在的 AI 系統可以通過大量時間和經驗從頭學習一項複雜技能。但是,我們如果想使智能體掌握多種技能、適應多種環境,則不應該從頭開始在每一個環境中訓練每一項技能,而是需要智能體通過對以往經驗的再利用來學習如何學習多項新任務,因此我們不應該獨立地訓練每一個新任務。這種學習如何學習的方法,又叫元學習(meta-learning),是通往可持續學習多項新任務的多面智能體的必經之路。

什麼是學習如何學習?它可以應用到哪裡呢?

最早的元學習法可以追溯到 20 世紀 80 年代末和 90 年代初,包括 Jürgen Schmidhuber 的理論和 Yoshua、Samy Bengio 的研究工作。最近,元學習再次成為熱門話題,相關論文大量湧現,多數論文使用超參數選擇(hyperparameter)和神經網絡優化(neural network optimization)技術,進而發現優秀的網絡架構、實現小樣本圖像識別和快速強化學習。

近來多種元學習方法

少次學習(Few-Shot Learning)

2015 年,Brendan Lake 等人發表論文挑戰現代機器學習方法,新方法能夠從一個概念的一個或多個樣本中學習新概念。Lake 舉例說,人類能夠將上圖識別為「奇怪的兩輪車」,但機器不能僅根據一張圖片泛化一個概念(同樣僅展示一個示例,人類就可以從新的字母表中學習到一個字符)。在該論文中,Lake 總結出一組手寫字符數據集 Omniglot,它被認為是 MNIST 的「調換(transpose)」,該數據集共有 1623 個字符類,每一類僅僅只有 20 個樣本。2015 年國際機器學習大會(ICML)論文中,就有學者分別使用了記憶增強神經網絡(memory-augmented neural network)和順序生成模型(sequential generative model)展示了深度模型能夠學會從少量樣本中學習,即使目前仍然達不到人類的水平。

元學習方法的運行機制

首先元學習系統會在大量任務中進行訓練,然後測試其學習新任務的能力。例如每一個類別給出幾個樣本,那么元學習是否能在將新的圖片正確分類,或者在僅提供一條穿過迷宮的通道時,模型能否學會快速穿過新的迷宮。該方法包括在單個任務上訓練和在留出樣本上測試,與很多標準機器學習技術不同。

用於少量圖像分類的元學習樣本

在元學習過程中,模型在元訓練集中學習不同的任務。在該過程中存在兩種優化:學習新任務的學習者和訓練學習者的元學習者。元學習方法通常屬於下面三個範疇中的一個:循環模型(recurrent model)、度量學習(metric learning)和學習優化器(learning optimizer)。

循環模型

這種元學習方法訓練一個循環模型(即 LSTM),模型從數據集中獲取序列輸入,然後處理任務中新的輸入。在圖像分類設置中,這可能包括從(圖像、標籤)對數據集中獲取序列輸入,再處理必須分類的新樣本。

輸入 xt 和對應標籤 yt 的循環模型

元學習者使用梯度下降,而學習者僅運行循環網絡。該方法是最通用的方法之一,且已經用於小樣本的分類、回歸任務,以及元強化學習中。儘管該方法比較靈活,但由於學習者網絡需要從頭設計學習策略,因此該方法比其他元學習方法的效率略低。

度量學習

即學習一個度量空間,在該空間中的學習異常高效,這種方法多用於小樣本分類。直觀來看,如果我們的目標是從少量樣本圖像中學習,那麼一個簡單的方法就是對比你想進行分類的圖像和已有的樣本圖像。但是,正如你可能想到的那樣,在像素空間裡進行圖像對比的效果並不好。不過,你可以訓練一個 Siamese 網絡或在學習的度量空間裡進行圖像對比。與前一個方法類似,元學習通過梯度下降(或者其他神經網絡優化器)來進行,而學習者對應對比機制,即在元學習度量空間裡對比最近鄰。這些方法用於小樣本分類時效果很好,不過度量學習方法的效果尚未在回歸或強化學習等其他元學習領域中驗證。

學習優化器

最後一個方法是學習一個優化器,即一個網絡(元學習者)學習如何更新另一個網絡(學習者),以使學習者能高效地學習該任務。該方法得到廣泛研究,以獲得更好的神經網絡優化效果。元學習者通常是一個循環網絡,該網絡可以記住它之前更新學習者模型的方式。我們可以使用強化學習或監督學習對元學習者進行訓練。近期,Ravi 和 Larochelle 證明了該方法在小樣本圖像分類方面的優勢,並表示學習者模型是一個可學習的優化過程。

作為元學習的初始化

遷移學習最大的成功是使用 ImageNet 預訓練模型初始化視覺網絡的權重。特別是當我們進行新的視覺任務時,我們首先只需要收集任務相關的標註數據,其次在 ImageNet 分類任務中獲取預訓練神經網絡,最後再使用梯度下降在相關任務的訓練集中微調神經網絡。使用這種方法,神經網絡從一般大小數據集中學習新的視覺任務將會變得更有效。然而,預訓練模型也只能做到這一步了,因為神經網絡最後幾層仍然需要重新訓練以適應新的任務,所以過少的數據仍會造成過擬合現象。此外,我們在非視覺任務中(如語音、語言和控制任務等)並沒有類似的預訓練計劃。那麼我們能從這樣的 ImageNet 預訓練模型遷移學習過程中學習其他經驗嗎?

與模型無關的元學習(MAML)

如果我們直接優化一個初始表徵,並且該表徵能採用小數據樣本進行高效的的調參會,那麼這樣的模型怎麼樣?這正是我們最近所提出算法的背後想法,即與模型無關的元學習(model-agnostic meta-learning MAML)。像其他元學習方法一樣,MAML 需要在各種任務上進行訓練。該算法需要學習訓練一種可以很快適應新任務的方法,並且適應過程還只需要少量的梯度迭代步。元學習器希望尋求一個初始化,它不僅能適應多個問題,同時適應的過程還能做到快速(少量梯度迭代步)和高效(少量樣本)。下圖展示了一種可視化,即尋找一組具有高度適應性的參數θ的過程。在元學習(黑色粗線)過程中,MAML 優化了一組參數,因此當我們對一個特定任務 i(灰線)進行梯度迭代時,參數將更接近任務 i 的最優參數θ65i。

MAML 方法的圖解

這種方法十分簡單,並且有很多優點。MAML 方法並不會對模型的形式作出任何假設。因此它十分高效,因為其沒有為元學習引入其他參數,並且學習器的策略使用的是已知的優化過程(如梯度下降等)而不是從頭開始構建一個。所以,該方法可以應用於許多領域,包括分類、回歸和強化學習等。

儘管這些方法十分簡單,但我們仍驚喜地發現,該方法在流行的少量圖片分類基準 Omniglot 和 MiniImageNet 中大幅超越許多已存的方法,包括那些更複雜和專門化的現有方法。除了分類之外,我們還嘗試了學習如何將仿真機器人的行為適應到各種目標中,正如同本博客最開始所說的動機,我們需要多面體系統。為此,我們將 MAML 方法結合策略梯度法進行強化學習。如下所示,MAML 可以挖掘到優秀的策略,即令仿真機器人在單個梯度更新中適應其運動方向和速度。

MAML on HalfCheetah

MAML on Ant

該 MAML 方法的普適性:它能與任何基於梯度優化且足夠平滑的模型相結合,這令 MAML 可以適用於廣泛的領域和學習目標。我們希望 MAML 這一簡單方法能高效地訓練智能體以適應多種情景,該方法能帶領我們更進一步開發多面體智能體,這種智能體能在真實世界中學習多種技能。

論文:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

論文地址:https://arxiv.org/abs/1703.03400 

摘要:我們提出了一種與模型無關的(model-agnostic)元學習算法,它能匹配任何使用梯度下降算法訓練的模型,並能應用於各種不同的學習問題,如分類、回歸和強化學習等。元學習的目標是在各種學習任務上訓練一個模型,因此我們就可以只使用少量的梯度迭代步來解決新的學習任務。在我們的方法中,模型的參數能精確地進行訓練,因此少量的梯度迭代步和訓練數據樣本能在該任務上產生十分優秀的泛化性能。實際上,我們的方法可以很簡單地對模型進行參數微調(fine-tune)。我們證明,MAML 方法在兩個小規模圖像分類基準上有最優秀的性能,在少量樣本回歸中也產生了非常優秀的性能,同時它還能通過神經網絡策略加速策略梯度強化學習(policy gradient reinforcement learning)的微調。 

原文地址:http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

相關焦點

  • 讓機器像人類一樣學習? 伯克利 AI 研究院提出新的元強化學習算法!
    在本文中,我們簡要介紹了元強化學習的研究現狀,然後提出了一種新算法—— PEARL,該算法使得樣本效率得到數量級的大幅度提升。這篇文章除了提出新的算法外,還對當時人們對元學習的興趣激增做了調查統計,結果表明無論是當時還是現在,元學習的關鍵思路就是把複雜的問題簡化成我們已經知道如何解決的問題。在傳統的機器學習中,研究者會給定一組數據點用來匹配模型;而在元學習中,則用一組數據集來替換這些數據點,其中每個數據集都對應一個學習問題。
  • OpenAI提出Reptile:可擴展的元學習算法
    近日,OpenAI發布了簡單元學習算法Reptile,該算法對一項任務進行重複採樣,執行隨機梯度下降,更新初始參數直到習得最終參數。該方法的性能可與MAML(一種廣泛應用的元學習算法)媲美,且比後者更易實現,計算效率更高。
  • 手把手 | OpenAI開發可拓展元學習算法Reptile,能快速學習
    大數據文摘作品編譯:Zoe Zuo、丁慧、Aileen本文來自OpenAI博客,介紹一種新的元學習算法Retile。在OpenAI, 我們開發了一種簡易的元學習算法,稱為Reptile。它通過對任務進行重複採樣,利用隨機梯度下降法,並將初始參數更新為在該任務上學習的最終參數。
  • 元學習幫你解決
    本文將教你如何從小樣本數據快速學習你的模型。1980年, Kunihiko Fukushima 提出了第一個卷積神經網絡。從那時起,由於計算能力的不斷提高和機器學習社區的巨大努力,深度學習算法在與計算機視覺相關的任務上從未停止過提高它們的性能。2015年,何凱明和他在微軟的團隊報告說,他們的模型在對來自 ImageNet 的圖像進行分類時表現優於人類。
  • NeurIPS提前看|四篇論文,一窺元學習的最新研究進展
    模型不可知的方法首先由 Chelsea Finn 研究組提出,通過初始化模型參數,執行少量的梯度更新步驟就能夠成功完成新的任務。本文從 NeurIPS 2019 的文章中選擇了四篇來看看元學習的最新的研究方向和取得的成果。
  • ...CVPR 2020 論文推薦:元轉移學習;ABCNet;動態圖像檢索;點雲分類...
    目錄12-in-1: 多任務視覺和語言表示學習CVPR 2020 | 用於零樣本超解析度的元轉移學習CVPR 2020 | ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位CVPR
  • ICLR 2018最佳論文:基於梯度的元學習算法
    id=Hkbd5xZRb機器之心文章:ICLR 2018 | 阿姆斯特丹大學論文提出球面 CNN:可用於 3D 模型識別和霧化能量論文:Continuous adaptation via meta-learning in nonstationary and competitive environments論文地址:https://openreview.net/pdf?
  • 馬爾可夫模型學習
    如果把「現在」推廣為停時情形的「現在」,在已知「現在」的條件下,「將來」與「過去」無關,這種特性就叫強馬爾可夫性。具有這種性質的馬爾可夫過程叫強馬爾可夫過程。在相當一段時間內,不少人認為馬爾可夫過程必然是強馬爾可夫過程。首次提出對強馬爾可夫性需要嚴格證明的是J.L.杜布。直到1956年,才有人找到馬爾可夫過程不是強馬爾可夫過程的例子。
  • 培養「元認知」能力,史丹福大學開發了哪些學習工具?
    元認知能力可以在當前學習任務中進行培養,適合不同學習程度的學生。對於學習能力差的學生,元認知能力的提升有助於培養他們的專注力,自我學習能力可以顯著提升。學習能力強的學生,已經證明與元認知能力顯著正相關。自我學習能力越強,越有能力有意識地提高元認知水平,從而有更好的學習表現,更自信,進入良性循環。
  • 神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT
    據論文介紹,這項研究為神經網絡提供了一種新的基本構造單元,展示了開發具有神經元可塑性的人工神經網絡的可行性。當前的神經網絡大多基於 MP 模型,即按照生物神經元的結構和工作原理構造出來的抽象和簡化模型。此類模型通常將神經元形式化為一個「激活函數複合上輸入信號加權和」的形式。
  • ...Transformer:華為諾亞、北大等提出IPT模型,刷榜多項底層視覺任務
    例如 OpenAI 的 iGPT、Facebook 提出的 DETR 等,這些跨界模型多應用於圖像識別、目標檢測等高層視覺任務。而華為、北大、悉大以及鵬城實驗室近期提出了一種新型預訓練 Transformer 模型——IPT(Image Processing Transformer),用於完成超解析度、去噪、去雨等底層視覺任務。
  • 元分析:固定效應模型和隨機效應模型
    下面是對元分析固定效應模型和隨機效應模型的介紹。如果想要了解更多元分析知識,請關注微信公眾號「元分析」。兩種常用見的元分析統計模型:固定效應模型和隨機效應模型在固定效應模型下,我們假定在納入分析的所有研究存在一個真實的效應量,並且觀察效應量的所有差異均歸因於取樣誤差。雖然我們遵循將其稱為固定效應模型的做法,但更具描述性的術語將是共同效應模型(common-effect model)。無論哪種情況,我們都使用單數(effect),因為只有一個真實的效應量。
  • 12歲小學生寫出馮諾依曼提出的元胞自動機
    這名叫Liam Ilan的12歲小女孩在Hackernews上低調寫了一句話,僅數小時,便驚呆了一路眾人:我12歲了,正在學習JS,用Node寫了Wolfram的元胞自動機  網友們不禁唏噓,真是長江後浪推前浪,把我們全都拍在沙灘上!
  • UNIMO:百度提出統一模態學習方法,同時解決單模與多模任務
    受此啟發,百度提出統一模態學習方法,能夠同時使用大量文本和圖像的單模數據進行學習,並利用圖文對的多模數據進行跨模態聯想對比,通過預訓練獲得統一語義表示,從而在多種理解與生成的下遊任務上超越 ViLBERT、Oscar 等多模預訓練模型以及 RoBERTa、UniLM 等文本預訓練模型,同時登頂視覺問答 VQA 權威榜單。
  • 天才女孩,12歲小學生寫出馮·諾依曼提出的元胞自動機
    元胞自動機(cellular automata,CA) 是一種時間、空間、狀態都離散,空間相互作用和時間因果關係為局部的網格動力學模型,具有模擬複雜系統時空演化過程的能力。最早由馮諾依曼提出。包含800個時間步的90號規則演化圖案不同於一般的動力學模型,元胞自動機不是由嚴格定義的物理方程或函數確定,而是用一系列模型構造的規則構成。凡是滿足這些規則的模型都可以算作是元胞自動機模型。
  • 愛學習不如擅長學習,學霸的「元認知能力」,幫孩子學習事半功倍
    而元認知能夠幫助孩子「有意識的」學習。從而變得更加自覺,更加高效。元認知如何幫助孩子高效學習同樣是坐在桌前學習,元認知水平低的孩子,是跟著老師教學任務和進度跳舞的傀儡,而元認知水平高的孩子,則是將老師納入了自己的學習支持系統。因為他很清楚自己究竟在幹什麼。那麼在學習上,較高的「自覺」會帶來哪些優勢呢?首先,要評估任務難度,制定計劃。
  • 研究人員提出一種基於多任務學習的深海被動定位方法
    近年來,科研人員開始將機器學習應用於水下目標的被動定位,把實際觀測數據作為訓練數據,得到具有較好定位性能的模型。海試數據難以獲取,因此,該方法的實際應用受到限制。科研人員改用聲傳播模型計算的仿真數據作為訓練數據,但這種方法和傳統匹配場方法一樣,面臨環境失配問題。
  • 從經典結構到改進方法,神經網絡語言模型綜述
    考慮到很難對上述模型中超多的參數進行學習,有必要採取一種近似方法。N 元(N-gram)模型是一種最為廣泛使用的近似方法,並且在 NNLM 出現之前是最先進的模型。一個(k+1)元模型是由 k 階馬爾科夫假設推導出的。該假設說明當前的狀態僅僅依賴於前面的 k 個狀態,即:我們用極大似然估計來估計參數。
  • 當傳統聯邦學習面臨異構性挑戰,不妨嘗試這些個性化聯邦學習算法
    本文選擇了三篇關於個性化聯邦學習的文章進行深入分析。其中,第一篇文章關於設備異構性的問題[6],作者提出了一種新的異步聯邦優化算法。對於強凸和非強凸問題以及一類受限的非凸問題,該方法能夠近似線性收斂到全局最優解。
  • 人體面骨三維有限元模型重構及碰撞分析
    摘要: 本文實現了螺旋CT圖像構建面顱骨三維有限元模型過程,用CT斷層圖像輸入計算機,採用CT圖像三維再現軟體和CAD軟體構建輪廓線,用非規則形體、有限元軟體Ansys劃分網格。此模型包括上頜骨、鼻骨、淚骨、顴骨。六面體與四面體的網格細化到平均尺寸6mm,四面體的網格細化到平均4mm。