OpenAI「約束強化學習」:AI安全探索要從娃娃抓起! | 獵雲網

2020-12-05 獵雲網

獵雲網註:OpenAI近年來取得的一系列成就也沒有讓馬斯克失望:單手玩轉魔方的機器手、將多種音樂進行重組的「MuseNet」(深度神經網絡),如今OpenAI在「安全約束性」上又玩出了新花樣:開源了Safety Gym。文章來源:AI星球(ID:ai_xingqiu)作者:奇點、清酒。

早在18世紀,「人工智慧」便已經進入概念性的啟蒙階段,如今當一波波人工智慧浪潮湧來之時有人歡喜有人憂:大多科技公司在欣喜中緊緊的抓住了人工智慧釋放的紅利,但與此同時也有為人工智慧緊鎖眉頭的領軍人物。

還記得那個要上天(太空探索公司SpaceX)遁地(地下高速隧道)的電動汽車公司特斯拉創始人伊隆·馬斯克曾放話——人工智慧猛於核武器:「我覺得人工智慧的危險要遠大於核武器的危險。請再次記住我的話,AI 要比這危險得多。」、「現在我最擔心的事情就是人工智慧......」。

2015年,深感AI危機意識的馬斯克和多位矽谷科技大亨促膝長談後決定共同創建OpenAI。

這是一個由諸多矽谷大亨聯合建立的「人工智慧非營利組織」,旨在其能夠預防人工智慧的災難性影響,推動AI發揮積極的作用。

當然OpenAI近年來取得的一系列成就也沒有讓馬斯克失望:單手玩轉魔方的機器手、將多種音樂進行重組的「MuseNet」(深度神經網絡)等。

如今OpenAI在「安全約束性」上又玩出了新花樣:開源了Safety Gym。

Safety Gym:為拯救「AI犯錯」不遺餘力

Safety Gym是一套用於評估強化學習智能體在訓練過程中是否遵守了「安全性約束」的訓練環境和工具,簡單來講,這套工具是要讓AI減少試錯的可能性,在其訓練的過程中約束、規範他們。

要明白迄今為止,數據科學領域的許多工作都集中在算法的規模和複雜度上,但在「AI安全」上——即防範危害,還是一個時常困擾技術人員的問題。

MIT首席研究型科學家Karl Iagnemma曾說:「你用安全駕駛的案例訓練出一種黑箱算法,但是算法輸出後卻要應對變幻莫測的現實情況。」

人類可以在外界的多重信息環境下判斷一輛車的軌跡變化亦或者會決策到其是否會撞上自己,相比之下,算法這方面的能力邊略顯低下。

而強化學習智能體需要不斷的探索他們所處的環境來學習新規範,達到最佳理想行為:他們會在反覆試驗的情況下來判斷是良性行為還是不良行為,然後基於大量的嘗試增加其良性行為的可能性並同時減少不良行為的可能性。

說白了,AI走的是一條「失敗是成功之母」 的不歸路。

雖然成功是建立在無數次失敗之上的,但事實上有些錯誤是不能嘗試的,我們總不能通過反覆的撞車、撞人來避免車禍現場吧!

真若如此,那麼馬斯克口中的「人工智慧猛於核武器」就不遠了。

這就是「安全探索」問題,所以「約束行為、增強安全意識」得從娃娃抓起。

在這種「安全探索」上首先要進行的是為其量化,於是OpenAI採用了一種形式化主義的量化方案:即約束強化學習(Constrained RL)。

這種約束化學習相比普通強化學習的RL,除了有最大化的獎勵功能外還增加了約束智能體的成本函數(cost function),即懲罰。

比如在自動駕駛案例中,在計算一輛自動駕駛車於最短時間內從A地到達B地所獲的最大獎勵時,我們下意識會忽略其在中間所發生的「撞車行為」。

理想狀態下自動駕駛車輛在符合交通安全標準之下以最快速度達到,但實際在AI中,這常常被忽略。

而Safety Gym的開源,就是為了約束強化學習的研究。

在Safety Gym環境中,引入了三個人工智慧機器人:點(Point)、車(Car)、狗狗(Doggo);機器人們必須在混亂的環境中導航才能完成三個主要任務(Goal、Button和Push),其中每個任務有兩個難度級別。

機器人都必須在混亂的環境中導航才能完成任務。

一共有三個預製機器人(Point,Car和Doggo),三個主要任務(Goal,Button和Push),每個任務有兩個難度級別,每次強化學習智能體執行一個不安全的操作即當一個紅色的警示燈在代理周圍閃爍時,相應就會產生成本。

以其中一個預設機器人Doggo為例,Doggo是個四足機器人,在其臀部與腿部接觸的位置都有兩個控制項,分別控制相對於軀幹的方位角和仰角,同時膝蓋上也有個控制角度的控制器。

目標任務(Goal):使其轉到一系列目標位置。

按鈕任務(Button):按下一系列目標按鈕。

推動任務(Push):將方框移到一系列目標位置。

在OpenAI給出的Safety Gym中有五種安全約束元素:混亂區域、易碎花瓶、按鈕、柱子和小怪獸。

在這些視頻中,其中也展示了在沒有約束的情況下,當機器人執行不良行為時,智能體周圍會以閃爍警示燈進行警告,此時便會產生成本,即懲罰。

這套訓練環境工具Safety Gym與普通的強化學習的現有環境相比,Safety Gym環境更加豐富,並且具有更高的難度和複雜性。

OpenAI表示,將在未來的工作中改進當前Safety Gym環境下的性能,使用Safety Gym調查安全AI訓練技術,並將約束強化學習與人類偏好等隱式規範相結合。

它同時也希望幫助制定一個可能衡量人工智慧系統安全性的指標。

OpenAI Gym:強化學習算法玩遊戲達人類水平

說起這套約束AI犯錯的訓練環境和工具,不可少提源頭是OpenAI於2016年研發的一款開發和比較強化學習算法的工具包「OpenAI Gym」。

令人匪夷所思的是,一個強化學習算法,便能讓計算機從零開始從像素中自動學會玩大部分Atari遊戲,而且達到了人類的表現水平。

OpenAI Gym由兩部分組成:gym開源庫和OpenAI Gym服務。使用這款算法工具包可以讓AI智能體做很多事情:移動、跳躍及進行多種遊戲,甚至也提供了多種環境,比如Atari、棋盤遊戲以及2D或3D遊戲引擎等。

OpenAI的使命就是確保人工智慧使全人類受益,起碼馬斯克對它的定位是這樣的。

但如今隨著OpenAI在人工智慧的道路上不斷推陳出新,那麼這家不以盈利為目的的組織究竟是如何長久的運行。

據悉在成立之初時,馬斯克、Y Combinator總裁阿爾特曼、天使投資人彼得·泰爾(Peter Thiel)等其他矽谷巨頭便曾承諾向OpenAI注資10億美元。

而且在今年7月份,OpenAI又一次得到了來自微軟10億美元的助力,微軟表示將協助其開發打造AGI(通用人工智慧)平臺,來解決更多的科學難題,推進人工智慧的不斷發展。

1、獵雲網原創文章未經授權轉載必究,如需轉載請聯繫官方微信號進行授權。

2、轉載時須在文章頭部明確註明出處、保留官方微信、作者和原文超連結。如轉自獵雲網(微信號:

ilieyun

)字樣。

3、獵雲網報導中所涉及的融資金額均由創業公司提供,僅供參考,獵雲網不對真實性背書。

相關焦點

  • 培養一個頂尖科學家,為什麼要從娃娃抓起?
    和他們的對話不難看出,如今科學家的培養,「從娃娃抓起」 的趨勢愈發明顯。1、為什麼要從娃娃抓起?上一屆的世界頂尖科學家論壇上,就曾有過「15 歲少女參加頂科論壇」 的熱搜。今年除了青年科學家論壇,主辦方還新增了「小院士論壇」 與「青少年論壇」。看到這些青少年的簡歷,難免感慨都是「別人家的孩子」。
  • 培養一個頂尖科學家, 為什麼要從娃娃抓起?
    和他們的對話不難看出,如今科學家的培養,「從娃娃抓起」的趨勢愈發明顯。 為什麼要從娃娃抓起?因此,「從娃娃抓起」就不難理解。   當然,培養頂尖科學家要「從娃娃抓起」,還有一個極其關鍵的因素——「好奇心」。「好奇心是人的天性,對科學興趣的引導和培養要從娃娃抓起」,今年9月11日在北京召開的科學家座談會上,習近平總書記的這句話,也再次指明了這一方向。
  • OpenAI發布強化學習環境Gym Retro:支持千種遊戲
    Gym 是 OpenAI 發布的用於開發和比較強化學習算法的工具包。使用它我們可以讓 AI 智能體做很多事情,比如行走、跑動,以及進行多種遊戲。目前,它運行在支持 Python 3.5 和 3.6 的 Linux、macOS 和 Windows 系統上。
  • 計算機普及要從娃娃抓起20周年
    圖片由北京市科協提供  「計算機普及要從娃娃抓起。」20年前的2月16日,鄧小平同志參觀上海展覽館的十年科技成果展時,親暱地用手摸了摸計算機小操作手李勁的頭,說了這麼一句話。  這句意義深遠的話不僅推動了我國計算機普及事業和信息科技事業的長足發展,也改變了當年這個計算機娃娃的命運。
  • Openai發布增強學習安全限制測量工具,研究如何讓AI不做「傻事」
    Openai推出了一套工具和環境Safety Gym,幫助他們進行受限增強學習算法。Safety Gym可用來評估增強學習代理人,在訓練時尊重安全約束的進展。Openai提到,要將深度學習應用在現實世界中,無論是實際的機器人還是網絡技術,人工智慧學習時都需要有安全算法,讓他們不需要實際經歷事故,就可以學會避免危險發生。增強學習是一個通過探索環境學習最佳行為的方法,需要通過代理人不停地試錯來運行,在代理人嘗試一些行為之後,判斷有效與無效的行為,增加良好行為的可行性,並減少無效行為的可能性,以達到最終設置的目標。
  • 媒體走基層採訪活動丨科普教育從娃娃抓起
    科普教育從娃娃抓起包頭市第一實驗小學:用手觸摸自然,用心感受科學中心通過科創活動、學科競賽、科普大講堂、手工創作、非物質文化遺產傳承、職業規劃、 科普劇進校園等方式,探索開設人工智慧、3d列印、領導力、創新創意、創客活動、匠心手創、職業體驗等特色課程,培養學生紮實基礎、突出學科特長和創新潛質。
  • 「從娃娃抓起」,培養頂尖數學家
    一個個關鍵詞衝撞眼球,計劃被不少人視作「不設任何框框的拔尖人才培養特區」,由此引發了眾多討論:這個特殊的「特區」要培養什麼人?怎麼招怎麼教?指向的又是當前教育的哪塊短板?在國際著名數學家、菲爾茲獎得主、清華大學丘成桐數學科學中心主任丘成桐看來,重視基礎科學、從娃娃抓起、在本土培養出一流學者——這正是他發起此次計劃的初心所在。「中國科技發展了這麼多年,很多方面還跟在別人後面跑。
  • ...數學科學領軍人才培養計劃:「從娃娃抓起」,培養頂尖數學家
    無須高考、全球招生、初三學生也可入學……清華大學發布丘成桐數學科學領軍人才培養計劃——  「從娃娃抓起」,培養頂尖數學家  無須高考、面向全球招生、初三學生也可入學……連日來,清華大學新近發布的「丘成桐數學科學領軍人才培養計劃」備受關注。
  • 清華發布丘成桐領軍人才培養計劃:從娃娃抓起,培養頂尖數學家
    一個個關鍵詞衝撞眼球,計劃被不少人視作「不設任何框框的拔尖人才培養特區」,由此引發了眾多討論:這個特殊的「特區」要培養什麼人?怎麼招怎麼教?指向的又是當前教育的哪塊短板?在國際著名數學家、菲爾茲獎得主、清華大學丘成桐數學科學中心主任丘成桐看來,重視基礎科學、從娃娃抓起、在本土培養出一流學者——這正是他發起此次計劃的初心所在。「中國科技發展了這麼多年,很多方面還跟在別人後面跑。
  • 強化學習基礎-對偶梯度上升
    該方法的核心思想是把目標函數轉換為可以迭代優化拉格朗日對偶函數。其中拉格朗日函數 ? 和拉格朗日對偶函數 g 定義為: 接下來,我們將應用梯度上升來更新 λ 以便最大化g。 g的梯度是: 其中 λ 是拉格朗日乘子
  • 海洋教育,從娃娃抓起,第三屆國際兒童海洋節在深圳啟幕
    摘要:海洋教育,從娃娃抓起,第三屆國際兒童海洋節在深圳啟幕,推動兒童海洋意識教育提升,保障兒童親近自然、親近海洋的權利,培養兒童海洋環保意識,倡議兒童從小關心海洋、關注海洋、保護海洋。保護海洋不僅僅是海洋環保人士的事情,海洋教育,應該從娃娃抓起,近日,第三屆「國際兒童海洋節」在深圳啟幕,推動兒童海洋意識教育,培養兒童海洋環保意識,倡議兒童從小關心海洋、關注海洋、保護海洋。
  • 非遺傳承從培養「娃娃徒弟」開始登上學習強國平臺
    非遺傳承從培養「娃娃徒弟」開始登上學習強國平臺 2021-01-14 16:52 來源:澎湃新聞·澎湃號·政務
  • Discovery探索從娃娃抓起
    作為陪伴89/90後成長的電視節目,Discovery探索頻道帶給我們的不僅僅是兒時的「電視娛樂節目」,更多的是帶給我們對這個世界無盡的探索和思考,身邊的一些朋友甚至人到中年都還在繼續追隨Discovery探索的腳步,這便是人類求知的本性。30年來,Discovery成為了很多朋友兒時成長的啟蒙導師,激發了其無限的好奇心。
  • 警報:百度文庫要抄了知乎的後路 | 獵雲網
    如果加入問答功能,那就可能抄了知乎的後路…… 獵雲網 6月28日報導 (編輯:馬凱 )幾乎所有網際網路媒體同行在談到知乎時,都認為,這是一家不錯的網站,上面聚集了很多的專業的人士,每天產生著大量有價值的內容
  • 晚報:蘋果起訴愛立信,學習寶、點融網等獲融資 | 獵雲網
    學習寶、點融網、一品一家、Sensbeat、Dicoding、Instacart獲融資。印度餐館搜索巨頭5000萬美元現金收購美國對手。美工藝品網絡賣場Etsy將IPO。東航攜手微軟推出國內首個人工智慧航班。傳5寸屏魅藍新機僅售599元。
  • DRL:強化學習——實例
    強化學習局限性強化學習非常依賴狀態state的概念,state既是策略函數和價值函數的輸入,又是環境模型model的輸入和輸出。強化學習適合解決什麼問題強化學習適合於解決模型未知,且當前決策會影響環境狀態的(序列)決策問題。強化學習和監督學習、無監督學習的區別監督學習一般有標籤信息,而且是單步決策問題,比如分類問題。監督學習的樣本一般是獨立 同分布的。
  • 光碟行動從娃娃抓起!注意,以後浪費食品可能會違法!
    光碟行動從娃娃抓起!注意,以後浪費食品可能會違法!部分來源:安徽發布原標題:《光碟行動從娃娃抓起!注意,以後浪費食品可能會違法!》
  • 頂級數學家,從娃娃抓起:丘成桐數學科學領軍人才培養計劃
    篩選「苗子」要培養一流數學家,就要招生。那麼,「丘成桐數學科學領軍人才培養計劃」要招什麼樣的學生呢?下面一段描述的就是此次計劃的招生對象。《招生辦法》:「崇尚科學、身心健康、成績優秀、具有突出數學潛質和特長並有志於終身從事科學研究的全球中學生」是「丘成桐數學科學領軍人才培養計劃」的招生對象。
  • 悄悄話:主打匿名聊天的社交應用 | 獵雲網
    獵雲網12月1日報導(文/衛清)今年年初,市場上同時湧現了多款匿名社交產品,但是使用手機號註冊,一開始就徹底輸在起跑線上了。「悄悄話」的出現憑什麼讓匿名聊天得到保障,下面,讓獵雲網帶大家來了解一下它。
  • AlphaGo原來是這樣運行的,一文詳解多智能體強化學習基礎和應用
    最後,本文列舉深度強化學習在多智能體研究工作中提出的一些方法(multi-agent deep reinforcement learning)。1. 強化學習和多智能體強化學習我們知道,強化學習的核心思想是「試錯」(trial-and-error):智能體通過與環境的交互,根據獲得的反饋信息迭代地優化。在 RL 領域,待解決的問題通常被描述為馬爾科夫決策過程。