導讀:2016國際人工智慧聯合會議(IJCAI2016)於7月9日至7月15日舉行,今年會議聚焦於人類意識的人工智慧,本文是IJCAI2016傑出學生論文(Distinguished Student Paper)。除了論文詳解之外,我們另外邀請到哈爾濱工業大學李衍傑副教授進行點評。
聯合編譯:Blake、章敏、陳圳
任務間的知識遷移可以提升學習模型的表現,但是需要對任務間關係進行準確評估,從而識別遷移的相關知識。這些任務間的關係一般是基於每個任務的訓練數據而進行評估的,對於從少量數據中快速學習每個連續任務為目標的終身學習來說,這個設定是效率低下的。為了減輕負擔,我們基於耦合詞典學習開發了一個終身強化學習方法,該耦合詞典學習將高階任務描述符合併到了任務間關係建模中。我們的結果表明,使用任務描述符能改善學習到的任務策略性能,既提供了我們方法有效的理論證明,又證明展示了在一系列動態控制問題上的進步。在只給描述符一個新任務的情況下,這一終身學習器也能夠通過 zero-shot 學習使用耦合詞典準確預測任務策略,不再需要在解決任務之前暫停收集訓練數據了。
1.引言
通過重新使用其他相關任務的知識,轉移和多任務學習(MTL)方法減少了獨立任務模型訓練所需要的經驗量。
基於每個任務的訓練數據,這些技術一般通過對任務間關係建模來選擇相關遷移知識。然而,在知識成功遷移之前,這個過程要求針對每個識別關係的任務有足夠的訓練數據。只要有一個高階任務描述,人類能夠針對一個新任務快速創立引導程序,在真正的任務執行之前調用以往的經驗。例如在看到一款新的宜家椅子盒子圖片時,我們能馬上聯想到之前的組裝椅子的經驗,然後開始思考該如何組裝這款椅子。同樣的,在給定質量和長度的情況下,一個有經驗的反轉極平衡agent可以能夠對控制器進行預測,且發生與物理系統交互之前。
受這個觀點啟發,我們探索利用高階的任務描述來提升多重機器學習任務中間的遷移效率。我們主要關注終身學習的場景,在這些場景中多重任務不斷進行且目標是通過前序知識快速學會新的任務。雖然我們在本文中重點關注的是強化學習(RL)任務,但是我們的方法也能容易擴展到回歸和分類問題上。
我們的算法——終身學習任務描述符(TaDeLL),將任務描述符編碼成特徵矢量來識別每個任務,將這些矢量作為輔助信息來進一步對獨立任務進行數據訓練。這種使用任務特徵來進行知識遷移在之前也有學者使用過。為了與他們的工作進行對比,我們的方法都是針對連續任務在線運行的,並且我們的方法計算效率更高。
我們使用耦合字典學習來對任務間的聯繫進行建模,不僅有任務描述符,還有終身學習中的獨立任務政策。耦合字典學習執行這樣的政策描述符相似的任務應該有相似的政策,但是仍然允許字字典元素的自由準確地反映不同任務的政策。我們將字典耦合到互相關的稀疏編碼概念連接,提供了為什麼任務描述符能提高性能的原因,並實證檢驗了這一改進理論依據。
為了進一步提升任務政策,我們提出任務標識符允許學習者在只給出它們的描述的情況下準確預測不明任務的政策,這個沒有數據的學習過程稱為zero-shot學習。在終身學習設定上這種能力十分重要,它允許系統通過遷移準確預測新任務政策,不需要在每個任務上暫停來收集數據。
2.相關工作
Batch MTL方法經常在任務間對關係進行建模,來檢測知識的遷移。這些技術包括對任務距離度量進行建模,使用相關性來檢測遷移是否恰當,或者基於最近的領域來進行建模。最近,MTL已經擴張到終身學習設定中,在這個範圍中衰減、分類與強化學習任務不斷進行。然而,所有的這些方法都需要針對每個任務的訓練數據,為了讀取他們的聯繫然後檢測遷移的知識。
與僅僅單獨倚靠任務訓練數據不同,好幾個研究工作都已經探索了在MTL中利用高階任務描述符來對任務間關係進行建模並遷移學習設定。結合神經網絡任務標識符已經被用來定義具體任務的前序或者控制獨立任務叢中間的門控網絡。本文主要關注批量設定下多重任務的分類和衰減,其中系統能夠訪問所有任務的數據和特徵,將我們對於終身學習任務描述符的研究與連續RL任務進行對比。
與我們的工作相似,Sinapov等人使用任務描述符來預估每組遷移學習任務中的可遷移性。給定描述符一個新任務,他們識別出最有可能遷移的原始任務,然後在RL中使用原始任務。雖他們的方式有效,但是因為他們需要通過重複模擬來計算每組任務的遷移性,所以計算起來太過昂貴。他們的評估也只限制在遷移學習設定中,沒有考慮到連續任務遷移的影響,也沒有想我們在終身學習設定中一樣更新遷移模型。
我們的工作也與Romera-Paredes和Tor提出的簡單Zero-Shot學習(簡單ZSL)有關,它學會一個多類線性模型、分解線性模型參數、假設描述符是重構模型的潛在基礎參數。
我們的方法假設了一個更加靈活的聯繫:模型參數和任務描述符都能通過分來的潛在基礎參數進行重構。與我們的終身學習方法相比,簡單的ZSL是在離線多類設定下操作的。
3.背景
3.1 強化學習
一個強化學習(RL)的agent必須在環境中選取序列行動來最大化預期回報。一個RL任務基本是按照Markov決策過程(MDP)來規劃的,即<X,A,P,R,r>。X是一系列狀態集,A是agent可能執行的動作集,P:XxAxX⇥[0,1]是描述系統動態的狀態轉移可能性。R:XxAxX⇥R是回報函數,r⋴ [0, 1)是隨著時間分配的回報。在事件步h上,agent在狀態xh⋴X通過政策π:XxA⇥[0,1]選擇行動a⋴A,通過矢量控制參數定義函數。強化學習的目的是發現最佳的政策π*和θ*來最大化預估回報。然而,學習一個獨立任務仍然需要大量的軌跡,這也激勵遷移來減少環境交流的數量。
政策梯度(PG)方法是我們的基礎學習方法,作為一系列RL算法被用來解決像機器控制等連續狀態和行動步高維問題。PG方法的目標是優化預期平均回報:
3.2 終身機器學習
在終身學習設定中,學習者面臨多重、連續任務,且必須基於前序經驗來快速學習每個任務。學習者可能會在任何時候遇到之前的任務,因此必須基於先前的任務優化表現。Agent並不知道任務Tmax的總數、任務分布或者任務順序。
在時間t上,終身學習者會遇到任務Z(t)。在本文中,每個任務Zt由MDP<X(t),A(t),P(t),R(t),r(t)>來定義,但是終身學習設定以及我們的方法能夠同等處理分類或者衰減任務。Agent將會連續學習每個任務,在轉至到下一個任務前獲取訓練數據。Agent的目標是學會相應參數下的最佳政策。理想狀態下,從之前任務學習到的知識應該能加速並提高每個新任務Z(t)的表現。同樣,終身學習者應該能有效擴展到大量的任務上去,同時從最小的數據中快速學習每個任務。
有效終身學習算法(ELLA)和PG-ELLA是分別針對在終身學習設定中分類/衰減任務和RL任務設計的。
對於每個任務模型,兩種方法都假設了可以用共享知識庫L進行因式分解的參數,從而促進任務之間的傳遞。具體來說,任務Z (t)的模型參數由θ(t)=LS(t)給出,其中L Rdxk是整個模型空間的共享基準,且S(t) Rk是整個基準的稀疏係數。這種因式分解對於終身學習和多任務學習都是非常有效的。在這種設想下,PG的MTL目標是:
為了達到終身學習設置中的目標,Bou Ammar等人近似多任務目標,首先替代PG目標的下邊界,然後,使用second-order Taylor擴展到近似目標,評估每一個任務Z(t)中α(t)Rd的單任務策略參數,並且只在當前時間點更新係數s(t)。該進程減少了MTL對於稀疏編碼共享基準L上單任務策略問題的注意力,並確保通過下面組成PG-ELLA的在線更新規則,能夠有效的解決S和L。
儘管這對終身學習是非常的有效,但在學者解決它之前,該方法需要大量的訓練數據去評估每一個新方法的策略。我們通過將任務描述納入終身學習來消除這種限制,以確保 zero-shot 轉移到新的任務。
4.任務描述符
儘管大多數的MTL和終身學習方法使用了任務訓練數據模型的內在任務關係,但高級描述能以完全不同的方式描述任務。例如,在多任務醫學領域,病人通常通過人口數據和疾病表現分配到任務中。在控制問題方面,動態系統參數(例如,彈簧-質量阻尼器系統中的彈簧,質量和阻尼常數)進行任務描述。描述也可以來自外部的來源,例如Wikipedia。這種任務描述已被廣泛的應用於zero-shot學習。
通常,我們假設每一個任務Z(t)都有一個相關的描述符m(t)(在第一次介紹任務時給到了學者)。學者並不清楚未來的任務,或任務描述符的分配。描述符由特徵向量Ø(m(t)Rdm表示,其中Ø(·)進行特徵提取和(可能的)特徵上的非線性基準變換。儘管在普遍的任務中都有不同的描述符,但我們沒有對Ø(m(t)的唯一性做任何假設。此外,每一個任務都有相關的訓練數據X(t)去學習模型;以防RL任務,數據由軌跡(通過代理在環境中的經驗動態獲得)組成。
5.任務描述符的終身學習
我們通過耦合字典將任務描述符組合到終身學習中,確保描述符和學習策略去增強彼此。儘管集中於RL任務,但我們的方法可以很容易地適應分類或回歸,如附錄中所述。
5.1耦合字典優化
如上文所述,大多數的多任務和終身學習方法都有成功的案列——用因式分解每個任務的策略參數θ(t)來作為共享基準:θ(t)=Ls(t)的稀疏線性組合。在效率上,每一列共享基準L作為一個可重複使用的策略組件,代表一個銜接知識塊。在終身學習中,當系統學習到更多任務時,基準L隨著時間的推移而被精煉。係數向量S=[s(1)。。。。S(T)]在共享基準上編碼任務策略,並基於他們的策略如何分享知識,提供一個嵌入任務。
我們對於描述符任務做了相似的假設——描述符特徵Ø(m(r))能夠通過使用描述符空間一個潛在的基準D Rdm×k進行線性分解。 係數是描述符基準的捕獲關係(基於他們描述符中的共性相似的嵌入任務)。從co-view視角看,兩種策略和描述符都提供了任務的信息,因此他們能夠互相交流學習。對於兩種觀點每一個基本的任務都是共同的,所以我們的任務是尋找嵌入策略和相應的任務描述符。我們可以通過耦合兩個基準L和D來實現,共享相同的係數向量S重建策略和描述符。因此對於任務Z(t)
為了在終身學習過程中優化耦合基準L和D,我們採用了來自稀疏編碼文獻中的耦合字典優化技術,它用於優化多特徵空間(共享一個聯合稀疏代表)的字典。耦合字典學習的概念,引出了高性能的圖像超解析度算法,允許高解析度圖像從低解析度的樣品中重建,並用於多模態檢索,和跨域檢索。
等式6中給出了因式分解,我們可以重新制定對於耦合詞典的多任務目標(公式1)如:
隨著算法1中給出一系列前期-任務的更新結果,該目標現在可以有效地在網上解決。伴著基於特徵值分解的遞歸構造,L和D使用等式3-5獨自更新。我們完整實現的方法,在第三方網站上面是可用的。
5.2 Zero-shot轉移學習
在終身設置中,面對新任務時,代理的目標是儘快的學習針對任務有效的策略。在這個階段,前期的多任務和終身學者,在他們能產生一個恰當的策略之前發生了延遲,因為他們需要從新任務中獲得數據,以便識別相關的知識和訓練新的策略。
結合任務描述符,僅給出描述符,以確保我們的方法快速預測針對新任務的策略。進行zero-shot轉移的操作是通過使用耦合字典學習來確保的,它允許我們在一個特徵空間(例如任務描述符)觀察數據實例,並利用字典和稀疏編碼,在其它的特徵空間中(例如策略參數)恢復其潛在的信號。
對於新任務Z(tnew)給出唯一的描述符m(tnew),我們可以在學習字典D中潛在的描述符空間路徑 LASSO上評估任務的嵌入:
由於S(tnew)給出的評估同樣也作為潛在策略空間L的係數,我們可以快速預測新任務的策略如:
算法2中給出了該zero-shot轉移學習的過程。
5.3理論分析
本節討論了為什麼通過耦合字典組合任務描述符可以提升學習策略的性能,並確保zero-shot轉移到新任務。在附錄2中,我們提供了TaDeLL的集合。全樣本的複雜性分析超出了論文的範圍,事實上,對於zero-shot學習,它仍然是一個開放的問題。
為了分析策略的改善程度,從策略參數分解成θ(t)=Ls(t)時,我們就通過展示用耦合字典組合描述符可以提高L和S兩者的性能而繼續實驗。在本分析中,我們使用了互相關(mutual coherence)的概念,它在稀疏恢復文學中早已被廣泛研究。互相關測量字典元素的相關性如:
如果M(Q)=0,那麼Q是可逆的正交矩陣,且稀疏恢復可以直接通過反演解決;如果M(Q)=1意味著Q不是滿秩,是一個低劣的字典。直觀的說,低互相關意味著字典的縱列非常的不同,因此這樣一個「優良」的字典可以代表很多不同的策略,有可能得到更多的知識轉移。這種直覺在下面被展示出:
因此,相互一致性較低的L會引出更穩定的方法用於解決不準確的單項任務評估策略。接下來我們會運用方法降低L的相互一致性。
TaDeLL改變了從訓練L到訓練L和D的聯合(包括在K中)的問題。在稀疏修復理論中,s*(t)是任務Z(t)中公式1的解決策略,所以s*(t)在所有的任務中都保持不變。定理5.1暗示,如果M(K) <M(L),那麼聯合模式學習能幫助解決更準確地修復問題。為進一步證明,從貝葉斯定理(Bayesian)的角度來看,公式7也一樣是MAP評估的衍生,加強了拉普拉斯算子(Laplacian)在s(t)’s和分布和假設L是一個高斯矩陣並且其原素都是獨立分布的。使用此類公式作為M(L)和M(K)的評價標準,因為新加的任務描述增加了d,大部分可能是M(K) <M(L),這也暗示TdDeLL學會了較高級的自編代碼。而且,如果M(D) ≤M(L),定義表明我們可以通過零射門遷移單獨使用D去修復任務政策。
為表示任務特徵能提高稀疏修復,我們通過以下關於LASSO的定理5.2進行證明。讓s*是θ=Qs系統的一個特殊解決方法。
這一定理表明LASSO的錯誤重建是與1/d是成正比的。當我們通過β(t)包含描述器時,RHS的共同特性會從d變成(d+dm),但與此同時K和k保持不變,由此產生了緊密的配合。因此任務描述能提高已學習過的代碼編碼的質量和稀疏修復的準確度。通過使用策略或是描述器保證是s(t)相等的緊密配合,定理5.2建議應該dm≥d,以保證零樣本學習同樣也能生產出對於s(t)相同的評價。
6.實驗
我們基於3個基準系統對我們的方法和學習控制策略進行評估。
6.1 基準動力系統
彈簧質量減震器(SM)。這一系統通過3個參數來進行描述:彈簧常數,質量,和減幅常數。系統的狀態是由物體的位置和速率決定的。控制器會通過對物體施加一個力量,試圖把它放到一個指定的位置。
車杆(BM)。這一系統專注於在水平面上以固定的速率移動時,要保持自行車的平穩。系統的特點在於自行車的質量,x和z坐標的質量中心,有關自行車的形狀參數(軸距,步道,和頭上的角)。其狀態是自行車的傾斜程度以及其他衍生狀態。
6.2 方法
在每一個域名我們會產生40個任務,每一個的動力都不一樣,系統參數也不一樣。每一個任務的回饋是當前狀態和目標之間的差距。對於終身學習,任務會不斷遇見重複,學習也會不斷進行直到每一個任務至少遇見過一次。在不同的方法之間我們使用相同順序的隨機任務,以保證比較的公正。學習者會取樣100個步驟軌跡,而且每一個任務展示之中其學習過程限制在30次迭代之內。MTL之中,所有的任務都是同時進行呈現的。我們使用自然策略梯度估計NAC(Natural Actor Critic)作為基礎,學習標準系統和情節加強。為在每一個域名之內優化所有方法在20個任務上的聯合表現並平衡描述器和策略之間,我們分別選擇了k和規定化參數參數。基於40個任務的最終策略,我們會對學習曲線進行評價,會把7個測試的結果進行平均。每一個任務的系統參數會看做是任務描述器的特徵;我們同時也會試著把一些非線性轉變,但發現使用線性特徵也運作良好。
6.3 基於標準系統的結果
圖1比較了我們用於終身學習的TaDeLL方法並帶有任務描述器。1.PG-ELLA並未使用任務特徵。2.GO-MTL,其中MTL對公式1有進行優化。3.單一任務學習使用PG。為進行比較,我們通過改變優化,使用MTL對公式7進行優化,並把結果描述為TaDeMTL。在圖中陰影暗示著標準錯誤。
我們發現在每一個系統中任務描述器都能改進終身學習,即使是在SM和BK域名內通過GO-MTL僅從經驗中無法獲得訓練策略情況下,也能提高學習。
圖1:基於標準動力系統多任務(實心線) 圖2:運行時間比較
終身(虛線),和單一任務學習(點線)的表現。
圖3:新任務的零樣本遷移。圖(a)顯示的是在每一個域名的最初「強力啟動」的提高;圖(b)-(d)描述了零樣本策略作為用於PG啟動熱身地初始化的結果。
在所有的域名內TaDeMTL和TaDeLL 之間的區別幾乎可以忽略,除CD之外(其任務十分複雜),這也暗示我們在線優化的有效性。
圖3展示了任務描述器對用於新任務的零樣本遷移十分有效。在每一個域名內為檢測零樣本的表現,另外生成了40個任務,並對這些任務的結果進行平均。圖3a顯示了我們的方法改進了在新任務中的最初表現(例如,「強力啟動」),而這也超越了Sinapov等人的方法表現以及單一任務的PG,但這一方法允許在任務中進行訓練。我們把Sinapov等人的方法在CP上的差表現歸因於CP策略本質上相差很大;在域名內,源策略與目標策略相差很大,Sinapov等人的算法不能較好地將其源策略進行遷移。此外此方法的計算費用與我們的方法(與任務數一致)相比也十分的昂貴(是任務數的兩倍),如圖2;運行時間的試驗細節可見附錄。圖3b-3d顯示了零樣本策略用於PG學習的最初啟動熱身十分的有效,緊接著這也會改進其策略。
6.4 四旋翼的應用
我們也會把這一方法運用於更具挑戰性的四旋翼控制域名,關注重點在於把零樣本遷移運用於新的任務。為確保現實的動力,我們使用Bouadallah和Siegwart模式,此類模式都是經過物理系統證實的。四旋翼是由3個慣性常數和機翼長度決定的,且其狀態包括橫搖、俯仰和偏航以及其他衍生狀態。
圖4:在四旋翼控制上的啟動熱身
圖4顯示的我們運用的結果,展示了TaDeLL能通過零樣本學習預測新四旋翼控制器,且其準確度與PG相似,但PG必須在系統中進行訓練。作為基準,TaDeLL對於PG的熱身啟動十分有效。
7.結論
在把任務描述器融入終身學習中建議使用聯合代碼字典的方法,因為使用描述器能提高已學的策略表現,同時也能讓我們在觀察訓練數據之前就能預測用於新任務的策略。在動力控制問題上,試驗顯示我們的方法比其他方法表現更為出色,並且要求的運行時間也比類似模式的要少。
點評:
人類組裝一款新的椅子時,通常藉助以往的組裝經驗完成新椅子的組裝,因而,在學習新任務的控制策略時,往往希望借鑑其他任務的學習經驗,即任務間的信息傳遞,來改進學習效果。任務之間的信息傳遞有助於改善學習的性能,但通常需要對任務間的聯繫進行精確估計,才能識別要傳遞的相關信息,而這些精確估計一般要基於每個任務的訓練數據,而長期學習(lifelong learning)的目標是利用儘可能少的數據來快速地學習連續的不同任務的策略,這種情況下,這種依靠精確估計任務間的聯繫的方法就不可取了,因為每個任務沒有那麼多訓練數據,為此,該文利用任務描述符(task descriptor)來建模任務間的聯繫,並利用耦合字典優化的方法改進相繼任務策略的學習效果;此外,該方法在沒有任何新任務訓練數據的情況下也可以預測新任務的策略。
via IJCAI 2016
PS : 本文由雷鋒網(公眾號:雷鋒網)獨家編譯,未經許可拒絕轉載!
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。