強化學習實驗裡到底需要多少個隨機種子的嚴格證明

2020-11-25 雷鋒網

雷鋒網 AI 科技評論按:在機器學習和深度強化學習研究中,可重複性成為了最近最為熱門、最常被人詬病的話題之一。復現一篇基於強化學習的文章遠比想像的難,具體分析可參照《lessons learned from reproducing a deep RL paper》。

事實上,一般情況下,原始碼庫並不總是被完整發布的,科學性的論文中時常會省略部分實現技巧。近期,Herderson 等人對造成復現困難的各種參數進行了深入的調查。他們使用了當下熱門的深度強化學習的算法,如 DDPG、ACKTR、TRPO 和 PPO 等,並結合 OpenAI Gym 中的經典基準測試,如 Half-Cheetah, Hopper 和 Swimmer 等,研究代碼庫、網絡大小、激活函數、獎勵縮放或隨機種子對性能產生的影響。結果中最令人驚訝的是,同樣的算法、用同一組超參數進行訓練時,每一次運行後的結果也會大相逕庭。

也許最令人驚訝的是:使用相同的超參數和 10 個不同的隨機種子運行相同的算法 10 次,其中 5 個種子的表現做平均和另外 5 個種子做平均,得到的兩條學習曲線仿佛是來自兩個不同的統計分布的。然後,他們展示了這樣一個表格:

該表顯示了 Henderson 等人參考的所有深度 RL 論文使用了少於5粒種子。更糟糕的是,一些論文實際上展現了最佳表現的平均值!正如 Henderson 等人剛才展示的那樣,算法表現的不穩定性使得研究者可以通過挑選種子的方式聲稱某個算法比另一個算法的表現更好,即便事實上並不是這樣。這個問題的解決方案是使用更多隨機種子,以平均更多不同試驗的結果,最終獲得更穩健的算法性能度量。那麼,到底使用多少才是合適的呢?應該使用 10 個,還是應該像 Mania 等人提出的那樣使用 100?答案當然是,看情況

如果您閱讀此博客,我猜您肯定處於以下情況:您希望比較兩種算法的性能,以確定哪種算法在給定環境中表現最佳。不幸的是,相同算法的兩次運行通常會產生不同的性能數值。這可能是由於各種因素造成的,例如隨機發生器產生的種子(隨機種子,簡稱種子)、智能體的初始條件、環境的隨機性等。

本文中描述的部分統計過程可以在 Github 上找到。這篇文章可在 ArXiv 上找到。雷鋒網 AI 科技評論對全文進行了編譯。

統計問題的定義

一段算法的表現可以通過數學建模成一個隨機的變量並且在環境中運行該算法可以得到實現將這個過程重複遍,可以得到統計樣本。一個隨機變量通常可以用其平均值和其標準偏差

來表示特徵。當然了,平均值和偏差都是未知的。但是可以計算的是它們的期望值和:

其中,被稱為經驗平均值,被稱為經驗標準偏差。樣本越大,估算結果的置信度就越高。

比較兩個表現分別為和的算法。如果和遵循正態分布。描述它們差值的隨機變量也滿足正態分布,並且,。在這種情況下,平均值的估算值為,並且的估算值為。影響效果可以用兩個表現的平均差值來表示:。

測試兩個算法的性能差在數學上等同於測試它們運行結果的差值與的差。那麼,根據上面的推理,從隨機變量和產生的兩個樣本和相減得到的變量所得的進行計算即為所需的樣本。

示例一

為了說明本文中提出的概念,採用兩種算法(Algo1 和 Algo2),並在 OpenAI Gym 框架中的 Half-Cheetah 環境中進行比較。所使用的實際算法在這裡並不那麼重要,稍後會公布。首先,進行初步研究,對每個算法設定 N = 5 個隨機種子,並在圖2中繪製結果。該圖顯示了平均學習曲線與 95% 置信區間。學習曲線的每個點是 10 個評價時段中的獎勵的累積值。該算法性能的度量值是過去 10 個點(即最後 100個評價時段)的平均性能。從圖中可以看出,Algo1 的表現似乎優於 Algo2;而且,越靠近結尾的位置,置信區間的重疊也並不多。當然,我們需要在得出任何結論之前進行統計學的測試。

將性能與差異測試進行比較

在差異測試中,統計學家首先定義零假設和替代假設。設定如下:

這些假設指的是雙尾的情況。如果你有一個先驗的算法表現最好,假設為Algo1,也可以使用單尾版本:

在一開始,統計學家經常會使用零假設。一旦一個樣本從獲得了,可以估算觀測數據的概率為極值。極值的含義是遠離零假設的數值,即的數值遠離0。概率的值可以回答下面的問題:觀測一個樣本或更加極端的樣本出現的概率,假設兩個算法的表現沒有本質的不同時。在數學上,可以使用單尾版本的公式來描述這一過程:

同樣的,也可雙尾描述:

當這個概率變得非常低時,這意味著兩個沒有性能差異的算法產生收集的樣本是非常不可能的。差異明顯可以表現為概率在單尾情況下比的值小,並在雙尾情況下比的數值小。通常將的數值設置為0.05或者更低。值得注意的是,儘管概率很低,依然是二十分之一的機率出現誤報,即在聲稱沒有差異時存在真正地差異。

另一種看待這種情況的方法是考慮置信區間。可以計算兩種置信區間:

統計中可以出現兩種類型的錯誤:

選擇適當的統計實驗

為了進行性能評估,必須首先確認需要使用的統計實驗。在 Herderson 的論文中,two-sample t-test 和自舉置信區間試驗可用於此目的。Herderson 等人也同時推薦了 Kolmogorov-Smirnov 實驗,用於測試兩個樣本是否來自同一個分布區間。但這種測試不能用於比較 RL 算法,因為它不能證明任何順序關係。

T-test 和 Welch's test

為了驗證兩個種群具有相同的均值的假設(零假設)。一個 2-sample t-test 可以在兩個種群的變量假設為一致時進行測試。但是,這種假設在對比兩個不同的算法時並不是每次都成立的(比如 DDPG 和 TRPO 算法)。在這種情況下,2-sample t-test的變種 Welch's test 被提出了。T-test 包含幾個假設:

  • 數據測量的規模必須是連續的和有序的,強化學習是滿足條件的;

  • 數據是通過從種群中收集代表性樣本獲得的,在強化學習中,是合理的;

  • 測量是獨立分開的,在強化學習中,看起來也是合理的;

  • 數據是正態分布的,或至少呈鍾型分布。正態法則是一個涉及無窮大的數學概念,沒有任何事物是完全正常分布的。此外,算法性能的測量可能遵循多模態分布。

基於這些假設,可以通過如下公式對統計值 和自由度 v 進行描述,這裡使用 Welch–Satterthwaite公式:

同時,,是兩個樣本的經驗標準偏差,N 為樣本的大小(兩個樣本的大小是一樣的)。那麼 t-statistics 默認遵循 t-distribution,是鍾型的,同時其寬度取決於自由度。自由度越高,分布越扁平。

如下圖,可以讓人更好的理解這個原理。值得注意的是,這邊是在單尾情況下,並得到了正差值。

t-distribution 由其概率密度函數(圖中左側曲線)定義。累積分布函數為的概率總和,即為:

在上圖中,代表在單尾情況下滿足的 t-value。當時,概率p 小於 α,實驗結果否定了零假設。另一方面,當小於時,概率p 的值大於α,實驗未否定零假設。從圖片上可以看出,將閾值設置為,會導致上文所提到的第二種錯誤。出現錯誤的機率是圖中深藍色陰影所表示的部分,可以用數學的方式表達如下:

使用積分的轉換屬性,可以將β重寫為:

總結一下,給定兩個樣本使用 Welch's t-test 實驗的步驟為:

值得注意的是,並不意味著兩個算法之間沒有差異。只能表明沒有足夠的證據證明在置信度的基礎下差異是存在的(也可能意味著第二種錯誤的情況)。噪音可能會妨礙測試檢測差異的能力。在這種情況下,增加樣本量可以幫助發現差異。

選擇 t-test 的顯著級別 α 會導致第一種錯誤的情況。但是,上圖顯示的是減少這種概率歸結為提高的值,這最終導致了第二種錯誤的出現。通過提高樣本的數量N,降低β,同時保持 α 為恆定值,可以使估算的更加準確,這最終使得圖片中的分布曲線更為扁平,更小的 β 值。下一部分介紹了在同時滿足α和 β 的情況下,選擇合適的樣本數量的方法。

自舉置信區間

Bootstrapped 置信區間是一種不對性能差異的分布做出任何假設的方法。它通過在實際收集的樣本中重新採樣並通過計算每個生成的樣本的平均值來估計置信區間。

給定正態分布的真實平均μ和標準偏差σ,一個簡單的公式給出95%置信區間。但在這裡,考慮一個未知的分布F(給定一個算法的性能分布)。正如我們上面看到的,經驗平均值是其真實均值的無偏估計,但是我們如何計算的置信區間?一種解決方案是使用Bootstrapp原理。

假設有一個測試樣本,其中是樣本的數量。通過原始樣本內的置換採樣,可以得到經驗bootstrap的樣本,標記為,其樣本數量與原測試數量是相同的。在bootstrap原理中,對於原始樣本上和自舉樣本上計算的任何統計數據,其變化是保持一致的。更多的解釋和理由可以從麻省理工學院的這份文章中找到。因此,可以通過bootstrap樣本的變化量來近似經驗平均值的變化(這裡可以值變化範圍)。

計算過程由如下幾步實現:

Bootstrap的樣本數量需要選擇相對較大的值(如1000)。如果置信區間的範圍不包含0,這就意味著置信為時,差值只為正或者負(範圍最大值最小值均為正或均為負)。通過這種方式,可以清楚的獲得兩個算法的性能表現的統計顯著差值。可以通過如下連結,參考一個實際應用。

繼示例一

這裡,設置α=0.05會導致第一種錯誤的出現。對兩個有5個隨機種子樣本進行Welch's test和bootstrap置信區間測試,p-value 為0.031,。由於p-value 低於α,同時CI1置信區間並不包含0,兩個測試都是通過的。這意味著兩個實驗結果都表明了算法Algo1Algo2的性能表現有顯著不同,且有95%的置信度。若真的檢測失敗,即僅僅存在 5% 的可能性會誤報出算法性能有顯著不同的結果。

事實上,在實驗時,確實碰到了第一種錯誤。如此確信的原因是:

實驗中選取的Algo1和Algo2其實是兩個完全相同的算法

它們都是權威的DDPG的實現算法。代碼庫可以從資料庫下載。這就意味著是一個真假設,並且兩個算法的平均值是相同的。第一個結論是錯誤的,必須要承認,在這裡實驗結果是第一種錯誤即在正確的時候否認了。但是,統計測試通常伴隨著一些假設,這導致最終實驗碰到第一種錯誤

理論分析:樣本大小選擇所帶來的功率

在實驗實現環節,強制選擇 α 作為顯著等級的選擇。第二種錯誤β現在需要進行估算。β是在為真的否認失敗的概率。當影響因子和第一種錯誤的概率 α 是常數時,β 是樣本數量 的函數。選擇樣本的數量 N 來滿足 β 的需求就稱為統計功率分析(statistical power analysis)。這回答了文章最一開始提出的問題:若顯著等級為 α ,選擇多大的樣本容量來滿足 1-β 的概率發現影響因子?下一章節將會介紹在Welch's test中選擇合適的 N 的步驟。

如前文中描述的那樣,β 可以使用公式進行分析:

在這裡,為以0為中心點t-distribution的累積分布函數,為臨界值,為影響因子的t-value。

示例二

為了更好的理解本文的含義,使用兩個DDPG的算法:一個有執行擾動(Algo1),一個有參數擾動(Algo2)。兩個算法都在OpenAI Gym框架下的Half-Cheetah環境中執行。

步驟1 - 畫圖學習

為了實際的獲得β,首先需要進行兩個算法的標準偏差的估算。在這個步驟中,算法在環境中計算,並獲得兩個大小為 n 的樣本 x和 x。然後對其經驗平均值和標準偏差進行計算。

繼示例二

這裡,設置樣本容量為n=5,經驗平均值為(3523,4905),經驗標準偏差=(1341,990),如下圖描述,其中紅色曲線表示Algo2,藍色曲線標識Algo1。從圖中可以看出,兩個算法的表現有輕微的不同,並且。

步驟2 - 選擇樣本大小

給定一個統計測試(如Welch's test),一個顯著等級α(如 α =0.05)和Algo1、Algo2的經驗估算標準偏差,可以計算得到β,通過基於樣本容量 N 和影響因子。

繼示例二

若N 在[2, 50]中取,取自於,通過前文公式計算,和。最後,通過前文公式計算第二種錯誤的概率β 。下圖展示了β 在不同的時的數值變化曲線。黑色虛線是 從圖中可以讀取到,N=5 時,β=0.51。這意味著當影響因子為1382時,有51%的概率得到第二種錯誤的實驗結果。為了使錯誤概率降低到20%以下,N 的選擇需要大於10(圖中,β=0.19 的點)。

上述實驗中,當N=10時,滿足影響因子為1382的概率條件,並在welch's test的前提之下,使用的經驗估算值為。但是,需要值得注意的是,這樣的實驗結果是基於多個近似,包括,並假設了t-value的鐘形分布。

步驟三 - 進行統計測試

兩個算法都需要被執行,以獲取一個容量為 N 的新的樣本,從而可以應用統計測試。

繼示例二

這裡,設置N=10,並執行Welch's test和bootstrap測試。通過實驗,獲得Algo1和Algo2的經驗平均值和經驗標準偏差。這兩個實驗結果都否定了,Welch's test的p-value 為0.0037,並且bootstrap測試的差值置信區間為。兩個實驗都通過了。在下圖中,N=5 N=10 的曲線都繪製了。將樣本容量提高到10時,原本在樣本容量為5的情況下不能被識別的顯著差異就顯示出來了。有更多的隨機種子,估算的更具魯棒性,更多的證據可以證明Algo2的性能比Algo1算法的性能好,這可以通過圖片中的尖峰進行識別。

實踐:從假設中產生偏差的影響

給定相應的假設,t-test 和 bootstrap 實驗在選擇顯著等級為α 時,都面臨第一種錯誤的問題。為了得到正確的錯誤概率信息,這些假設都需要被仔細的檢查。首先,基於實驗數據,需要計算第一種錯誤概率的經驗評估,並展示:1)bootstrap測試對小樣本容量極度敏感;2)t-test的結果可能會對非正太分布的數據有偏差。然後,在實驗中,也驗證了,低樣本數導致了s1和s2的估算值的不準確性,並造成β 計算較大的誤差,最終造成從實驗中反饋的樣本數量需求也偏低。

第一種錯誤的經驗估算

給定樣本數量N第一種錯誤的概率可以通過如下幾個步驟進行估算:

示例三

使用示例二中的Algo1算法。經過42次實驗,如上的過程,N 的選擇範圍為[2,21]。下圖展現了實驗的結果。在α=0.05的情況下,當N取值過小時,經驗估算的false positive的機率比基準值高出很多。

在實驗中,bootstrap測試的置信區間不能使用在小樣本量的計算中(<10)。即使是在這種情況下,產生第一種錯誤的概率在實驗中被低估了(應為10%,而實驗結果為5%)。Welch's test降低了這種影響力,但在樣本容量很小的時候,反而更難得到正確的結果了。綜上,在實驗時,需將α 的值設置為0.05以下,以確保true positive的概率低於0.05。在示例一中,N=5,則遇到了第一種錯誤。在上圖中,這種可能性在bootstrap測試中得到約10%的計算結果,Welch's測試中獲得了高於5%的結果。

經驗標準偏差的影響

基於樣本容量 N 和標準偏差的經驗估算值,Welch's test計算了 t 的統計信息和自由度 V 。當 N 的值很低時,S1和S2估算值低於實際的標準偏差值。這導致了更小的 V 和 更低的,並最終影響了低 β 值。最後,更低的β 在環路中影響了樣本容量的選擇。這對樣本容量N 的計算有著顯著影響。下圖在兩個分布和中,false positive機率β 。圖中兩個結果的區別是,左側的圖片使用了真實的數值進行計算,而右側的圖片使用了經驗評估值。從實驗結果可以看出,不管使用哪一種數值,基於β 的樣本容量的選擇是一致的。

重要的是:

  • 不應該盲目相信統計測試結果。這些測試是基於假設並不總是合理的。

  • α 必須是經驗估計的,因為統計測試可能低估它,因為錯誤假設的基礎分布或因為小樣本容量。

  • 第一種錯誤的Bootstrap測試評價強烈依賴於樣本大小。不應使用Bootstrap測試進行低於20數量的樣本

  • 小樣本也會造成算法標準偏差估算的不準確,並最終導致對樣本容量需求的低估。

結論

在本文中,詳細的介紹了在比較兩個強化算法的時候遇到的統計問題。並定義了第一種錯誤和第二種錯誤,同時還提出了ad-hoc統計測試的方法進行性能對比測試。最後,作者還介紹了在測試中選擇正確的樣本數量的方法,並通過實際案例進行了分析和描述。

本文最重要的意義並不僅限於方法和應用的介紹,而是基於本文的理論進行的後續的研究。通過挑戰Welch's test和bootstrap測試的假設,作者發現了幾個問題。首先,作者發現了在實驗中,經驗推斷值和理論實際值的顯著差異。為了規避這個問題,作者提出了N=20的最低樣本容量要求,指出bootstrap測試必須使用在樣本數量N>20的情況下,只有滿足這樣的要求,才能符合false positive機率的要求(<0.05)。其次,樣本容量N的要求在計算中很大的取決於的精度。為了順利的進行推算和計算,在實驗一開始就需要選擇系統的大於功率分析的規定。

推薦的實驗設定

  • 使用 Welch's test 進行 bootstrap 置信區間的計算;

  • 降低 α(<0.05)的值,來確保第一種錯誤出現的概率低於0.05;

  • 正確的多重比較,以避免隨著實驗的數量線性增長的 false positive 機率;

  • 使用至少 n=20 的樣本進行曲線繪製,以獲得基於兩個算法的魯棒的估算;

  • 使用超過功率分析的樣本數量。這可以帶來更準確的準備偏差估算值並降低第二種錯誤出現的概率。

最後,作者非常謙虛的留言:需要注意的是,本文的作者並不是一個專業的統計學者,如果在文中發現任何統計學上的問題,請隨時與作者聯繫~

via openlab-flowers.inria.fr,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 人腦的前額皮質裡藏了一個強化學習系統,DeepMind如是說
    引入神經科學他們通過虛擬重建神經科學領域的六個元學習實驗來測試他們的理論,其中每個實驗都需要一個代理程序來執行基本原則(技能)相同但在某些維度上有所不同的任務。他們先使用標準深度強化學習技術(代表多巴胺的作用)訓練了一個遞歸的神經網絡(代表前額皮質),然後再對比遞歸網絡的活動動態與以前神經科學實驗真實數據的異同。
  • 強化學習如何使用內在動機?
    本文主要在回顧內在動機的生理學知識的基礎上,探討內在動機在強化學習 RL 中的應用。在機器學習領域,一般認為強化學習 RL 框架只能處理外在動機,因為 RL 智能體(Agent)具有獨特的輸入通道,可以從其外部環境傳遞獎勵信號。然而,研究人員證明,RL 框架同樣適合結合內在動機的原理。
  • Pieter Abbeel:深度強化學習加速方法
    來源:深度強化學習算法  編輯:元子  【新智元導讀】深度強化學習一直以來都以智能體訓練時間長、計算力需求大、模型收斂慢等而限制很多人去學習,加州大學伯克利分校教授Pieter Abbeel最近發表了深度強化學習的加速方法,解決了一些問題。
  • 如何解決稀疏獎勵下的強化學習?
    以探索環境所需要的步驟數量來衡量這些努力。為了估計步驟數量,本文訓練了一個神經網絡近似器:給定兩個觀測值,預測將它們分開需要執行多少步。圖 1 給出了通過可達性(Reachability)來說明行動的新穎性(Novelty)的概念。圖中的節點是觀測值,邊是可能的轉換。
  • DeepMind用強化學習探索大腦多巴胺對學習的作用
    ,發現AI的學習方式與神經科學實驗中動物的學習方式類似。正是這種組合被認為有助於人高效地學習,並將這些知識快速靈活地應用於新任務。在 AI 系統中重建這種元學習結構——稱為元強化學習(meta-reinforcement learning)——已經被證明能夠促進智能體(agents)快速、one-shot的學習。
  • 股票市場交易中的強化學習|機器學習|強化學習|深度學習
    這一事實在許多項目中得到了體現,因為最終您只需要相信您目前擁有的組合已經足夠好,可以讓模型學習。因此,我們確定了兩個動量指標,即經典相對強度和另一個被有趣地命名為awesome指標,以及兩個趨勢指標,移動平均收斂散度和Aroon指標。動量指標很有用,因為它們試圖量化股票在先前價格的背景下的走勢。
  • 一顆種子埋139年,熬死科學家幾輩後代,到底想證明什麼?
    要想探究一個事物科學的原理,就必須通過實驗來證明,一味的空想是沒有用的,世界上有很多著名的實驗,這些實驗或多或少的對人類社會的進步提供了巨大的幫助,曾經有一個科學家,他有一項與眾不同的實驗,該實驗一直持續了139年,熬死了他的幾輩後代,他到底想通過這個實驗證明什麼?
  • DRL:強化學習——實例
    強化學習作為一門靈感來源於心理學中的行為主義理論的學科,其內容涉及概率論、統計學、逼近論、凸分析、計算複雜性理論、運籌學等多學科知識,難度之大,門檻之高,導致其發展速度特別緩慢。強化學習特徵:試錯:agent需要不斷的嘗試,通過reward的反饋學習策略。延遲獎勵:某一時刻action可能會對後面時刻reward有影響。
  • Uber論文5連發宣告神經演化新時代,深度強化學習訓練勝過SGD和策略...
    雖然一開始沒能嚴格地證明 SGD 可以讓非凸函數收斂,但許多人都認為 SGD 能夠高效地訓練神經網絡的重要原因是它計算梯度的效率很高。不過在 Uber 看來,SGD 雖然熱門,但它不一定總是最好的選擇。
  • 南京大學俞揚博士:強化學習前沿(下)
    如果用蒙特卡羅的話,需要先走到底,知道總體的結果之後,每一步的差別就能算出來;而對於TDL來說,只需要記錄一步的信息,所以可以在線更新自己。還有另外一個例子,跟大家講解一下為什麼需要隨機性策略。很多運用強化學習尋找策略的遊戲已經比人玩得都好了,它玩的好的優勢主要體現在反應速度上。但是在需要深入思考邏輯關係的遊戲中,強化學習沒有人做得好。我們來看看它的遊戲報告結果。
  • 專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...
    近些年來,人工智慧技術,尤其是深度強化學習 (Deep reinforcement learning, DRL) 技術有著非常快速的發展,並且在某些問題上取得了令人矚目的成果。而且深度強化學習技術已經被發現在求解組合優化問題方面具有較大的潛力,所以本研究使用了一種基於深度強化學習的方法來求解新型三維裝箱問題。本文基於大量實際業務數據訓練了深度強化學習模型,並驗證了模型的效果。
  • 機器人強化遷移學習指南:架設模擬和現實的橋梁
    然而,這些成功大多是在仿真、視頻遊戲等非物理環境中實現的,強化學習在物理系統上的複雜策略仍存在很大的挑戰。強化學習需要與現實環境進行大量的交互,但是機器人強化學習從現實環境中獲取樣本的代價極高,因此,針對複雜運動技能的機器人強化學習是一個具有挑戰性且尚未解決的問題,而遷移學習是實現物理機器人強化學習的重要策略。
  • 班杜拉觀察學習的經典實驗
    行為主義代表人物班杜拉的觀察學習理論,又稱為社會學習理論。該理論強調成人榜樣對兒童有明顯影響,兒童可以通過觀察成人榜樣的行為而習得新的行為,而非通過條件刺激與條件反射的聯結或者對於行為的強化來習得新的行為。而有關班杜拉的觀察學習試驗是同學們需要掌握的,下面我來簡單介紹兩個試驗。
  • 深度| 為什麼隨機性對於深度學習如此重要?
    在結合隨機性的深度神經網絡中,一方面保持了網絡的確定性,但是另一方面將其輸出變成為概率分布的參數,使得我們可以利用卷積採樣方法畫出具有隨機輸出特性的樣例圖片。DeepMind的阿法狗採用了這樣的原則:基於一個給定的圍棋盤圖片,輸出每一種走棋方式的獲勝的概率。這種網絡輸出的分布建模被廣泛應用與其他深度強化學習領域。
  • 機器學習到底需要多少數據?可能並不是越多越好
    機器學習中最值得問的一個問題是,到底需要多少數據才可以得到一個較好的模型?從理論角度,有Probably approximately correct (PAC) learning theory來描述在何種情況下,可以得到一個近似正確的模型。但從實用角度看,PAC的使用範圍還是比較局限的。
  • Atari 遊戲得分提升兩個數量級:Uber AI 的新強化學習算法 Go...
    雷鋒網 AI 科技評論按:近期,Uber AI 研究院提出了一種新的強化學習算法 Go-Explore ,它的目標是克服當前熱門的好奇心(內在獎勵)大類方法尚未克服的遺忘和重複探索問題。他們也在極具挑戰的 Atari 遊戲「蒙特祖瑪的復仇」和「Pitfall」中實驗了算法,取得了好幾個數量級的表現提升。雷鋒網 AI 科技評論介紹如下。
  • 聯邦學習 OR 遷移學習?No,我們需要聯邦遷移學習
    該方法使用來自 TTS 的音頻和隨機採樣語音的混合作為輸入。首先,將 seq2seq 模型與組織級別的相關數據相適應,然後以聯合的方式對特定於會話的數據進行調整。第一步創建一個新的種子模型,該種子模型用作在每個會話的 TTS 數據上運行上述 FTL 的起點。基於 TTS 的數據導致 seq2seq 模型顯著偏離於原始模型,因此使用隨機抽樣的 「真實」 數據正則化處理訓練過程。
  • 強化學習的10個現實應用
    在無人駕駛中,需要考慮的問題是非常多的,如:不同地方的限速不同限速,是否是可行駛區域,如何躲避障礙等問題。有些自動駕駛的任務可以與強化學習相結合,比如軌跡優化,運動規劃,動態路徑,最優控制,以及高速路中的情景學習策略。比如,自動停車策略能夠完成自動停車。
  • 強化學習中的線性代數知識
    線性代數的基本原理如何用於深度強化學習?答案是解決了馬爾可夫決策過程時的迭代更新。強化學習(RL)是一系列用於迭代性學習任務的智能方法。由於計算機科學是一個計算領域,這種學習發生在狀態向量、動作等以及轉移矩陣上。狀態和向量可以採用不同的形式。當我們考慮通過某個線性系統傳遞一個向量變量,並得到一個類似的輸出時,應該想到特徵值。
  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    將任務目標傳達給他人並不是什麼難事:我們可以使用語言向對方表述所需要的結果、向他們發送一段操作視頻,或者將這類辦法結合起來共同做出說明。但在另一方面,為機器人指定任務以進行強化學習則需要投入大量精力。強化學習算法已經設法以特殊方式移動機器人手臂騙過了分類器,這是因為該分類器在訓練當中從未見過這種特定類型的反例。攻克分類器局限性難題我們採取的最新方法被稱為變量逆控制事件(簡稱 VICE),旨在通過對抗方式挖掘分類器所需要的反例以解決實際問題。該方法以分類器與策略的隨機初始化為起點,首先修復分類器並更新策略,從而實現獎勵最大化。