獵雲網註:OpenAI近年來取得的一系列成就也沒有讓馬斯克失望:單手玩轉魔方的機器手、將多種音樂進行重組的「MuseNet」(深度神經網絡),如今OpenAI在「安全約束性」上又玩出了新花樣:開源了Safety Gym。文章來源:AI星球(ID:ai_xingqiu)作者:奇點、清酒。
早在18世紀,「人工智慧」便已經進入概念性的啟蒙階段,如今當一波波人工智慧浪潮湧來之時有人歡喜有人憂:大多科技公司在欣喜中緊緊的抓住了人工智慧釋放的紅利,但與此同時也有為人工智慧緊鎖眉頭的領軍人物。
還記得那個要上天(太空探索公司SpaceX)遁地(地下高速隧道)的電動汽車公司特斯拉創始人伊隆·馬斯克曾放話——人工智慧猛於核武器:「我覺得人工智慧的危險要遠大於核武器的危險。請再次記住我的話,AI 要比這危險得多。」、「現在我最擔心的事情就是人工智慧......」。
2015年,深感AI危機意識的馬斯克和多位矽谷科技大亨促膝長談後決定共同創建OpenAI。
這是一個由諸多矽谷大亨聯合建立的「人工智慧非營利組織」,旨在其能夠預防人工智慧的災難性影響,推動AI發揮積極的作用。
當然OpenAI近年來取得的一系列成就也沒有讓馬斯克失望:單手玩轉魔方的機器手、將多種音樂進行重組的「MuseNet」(深度神經網絡)等。
如今OpenAI在「安全約束性」上又玩出了新花樣:開源了Safety Gym。
Safety Gym:為拯救「AI犯錯」不遺餘力
Safety Gym是一套用於評估強化學習智能體在訓練過程中是否遵守了「安全性約束」的訓練環境和工具,簡單來講,這套工具是要讓AI減少試錯的可能性,在其訓練的過程中約束、規範他們。
要明白迄今為止,數據科學領域的許多工作都集中在算法的規模和複雜度上,但在「AI安全」上——即防範危害,還是一個時常困擾技術人員的問題。
MIT首席研究型科學家Karl Iagnemma曾說:「你用安全駕駛的案例訓練出一種黑箱算法,但是算法輸出後卻要應對變幻莫測的現實情況。」
人類可以在外界的多重信息環境下判斷一輛車的軌跡變化亦或者會決策到其是否會撞上自己,相比之下,算法這方面的能力邊略顯低下。
而強化學習智能體需要不斷的探索他們所處的環境來學習新規範,達到最佳理想行為:他們會在反覆試驗的情況下來判斷是良性行為還是不良行為,然後基於大量的嘗試增加其良性行為的可能性並同時減少不良行為的可能性。
說白了,AI走的是一條「失敗是成功之母」 的不歸路。
雖然成功是建立在無數次失敗之上的,但事實上有些錯誤是不能嘗試的,我們總不能通過反覆的撞車、撞人來避免車禍現場吧!
真若如此,那麼馬斯克口中的「人工智慧猛於核武器」就不遠了。
這就是「安全探索」問題,所以「約束行為、增強安全意識」得從娃娃抓起。
在這種「安全探索」上首先要進行的是為其量化,於是OpenAI採用了一種形式化主義的量化方案:即約束強化學習(Constrained RL)。
這種約束化學習相比普通強化學習的RL,除了有最大化的獎勵功能外還增加了約束智能體的成本函數(cost function),即懲罰。
比如在自動駕駛案例中,在計算一輛自動駕駛車於最短時間內從A地到達B地所獲的最大獎勵時,我們下意識會忽略其在中間所發生的「撞車行為」。
理想狀態下自動駕駛車輛在符合交通安全標準之下以最快速度達到,但實際在AI中,這常常被忽略。
而Safety Gym的開源,就是為了約束強化學習的研究。
在Safety Gym環境中,引入了三個人工智慧機器人:點(Point)、車(Car)、狗狗(Doggo);機器人們必須在混亂的環境中導航才能完成三個主要任務(Goal、Button和Push),其中每個任務有兩個難度級別。
機器人都必須在混亂的環境中導航才能完成任務。
一共有三個預製機器人(Point,Car和Doggo),三個主要任務(Goal,Button和Push),每個任務有兩個難度級別,每次強化學習智能體執行一個不安全的操作即當一個紅色的警示燈在代理周圍閃爍時,相應就會產生成本。
以其中一個預設機器人Doggo為例,Doggo是個四足機器人,在其臀部與腿部接觸的位置都有兩個控制項,分別控制相對於軀幹的方位角和仰角,同時膝蓋上也有個控制角度的控制器。
目標任務(Goal):使其轉到一系列目標位置。
按鈕任務(Button):按下一系列目標按鈕。
推動任務(Push):將方框移到一系列目標位置。
在OpenAI給出的Safety Gym中有五種安全約束元素:混亂區域、易碎花瓶、按鈕、柱子和小怪獸。
在這些視頻中,其中也展示了在沒有約束的情況下,當機器人執行不良行為時,智能體周圍會以閃爍警示燈進行警告,此時便會產生成本,即懲罰。
這套訓練環境工具Safety Gym與普通的強化學習的現有環境相比,Safety Gym環境更加豐富,並且具有更高的難度和複雜性。
OpenAI表示,將在未來的工作中改進當前Safety Gym環境下的性能,使用Safety Gym調查安全AI訓練技術,並將約束強化學習與人類偏好等隱式規範相結合。
它同時也希望幫助制定一個可能衡量人工智慧系統安全性的指標。
OpenAI Gym:強化學習算法玩遊戲達人類水平
說起這套約束AI犯錯的訓練環境和工具,不可少提源頭是OpenAI於2016年研發的一款開發和比較強化學習算法的工具包「OpenAI Gym」。
令人匪夷所思的是,一個強化學習算法,便能讓計算機從零開始從像素中自動學會玩大部分Atari遊戲,而且達到了人類的表現水平。
OpenAI Gym由兩部分組成:gym開源庫和OpenAI Gym服務。使用這款算法工具包可以讓AI智能體做很多事情:移動、跳躍及進行多種遊戲,甚至也提供了多種環境,比如Atari、棋盤遊戲以及2D或3D遊戲引擎等。
OpenAI的使命就是確保人工智慧使全人類受益,起碼馬斯克對它的定位是這樣的。
但如今隨著OpenAI在人工智慧的道路上不斷推陳出新,那麼這家不以盈利為目的的組織究竟是如何長久的運行。
據悉在成立之初時,馬斯克、Y Combinator總裁阿爾特曼、天使投資人彼得·泰爾(Peter Thiel)等其他矽谷巨頭便曾承諾向OpenAI注資10億美元。
而且在今年7月份,OpenAI又一次得到了來自微軟10億美元的助力,微軟表示將協助其開發打造AGI(通用人工智慧)平臺,來解決更多的科學難題,推進人工智慧的不斷發展。