OpenAI創造了機械手的新算法,可單手還原魔方

2020-10-18 木法沙和三傻

OpenAI的研究人員開發了一種新方法,可以將複雜的操作技能從模擬環境轉移到物理環境中

一年多前,總部位於舊金山的營利性人工智慧研究實驗室OpenAI宣布,它已經訓練了一隻機械手,能夠以驚人的靈巧程度操縱一個立方體

這聽起來可能並不驚天動地。但在人工智慧領域,它之所以令人印象深刻,有兩個原因。首先,這隻手通過強化學習算法(一種模仿動物學習方式的技術)自學了如何擺弄魔方。其次,所有的訓練都是在模擬環境中進行的,並且又成功地將其轉化到現實世界中。在這兩個方面,這都是朝著工業和消費者應用程式更敏捷的機器人邁出的重要一步。

在昨天的一篇新論文中,OpenAI發布了它的機械手Dactyl最新結果。這一次Dactyl學會了用一隻手來解決魔方,還是通過模擬中強化學習。這並不是因為機器人破解了古老的謎題,而是因為這一成就提高了機器人的靈活性

「這是一個非常困難的問題,」密西根大學專門研究機器操作的機器人專家德米特裡·貝倫森(Dmitry Berenson)表示。「旋轉魔方所需的操作實際上比旋轉立方體要困難得多。

從虛擬世界到物理世界

傳統上,機器人只能以非常簡單的方式操縱物體。儘管強化學習算法在完成軟體中的複雜任務方面取得了巨大成功,比如在古老的圍棋遊戲中擊敗了最優秀的人類棋手,但用它們來訓練一臺物理機器則是另一番景象。這是因為算法必須通過反覆試驗來完善自己——在很多情況下,要經過數百萬輪的反覆試驗。一個物理機器人要在現實世界中做到這一點,可能需要太長的時間和大量的磨損。如果機器人為了收集數據而亂蹦亂跳,甚至會有危險。

為了避免這種情況,機器人專家使用仿真技術:他們為自己的機器人建立一個虛擬模型,並對其進行虛擬訓練,以完成手頭的任務。該算法在安全的數字空間中學習,然後移植到物理機器人中。但這一過程也伴隨著自身的挑戰。幾乎不可能建立一個完全複製現實世界中所有相同物理定律、物質屬性和操作行為的虛擬模型——更不用說那些意想不到的情況了。因此,機器人和任務越複雜,在物理現實中應用虛擬訓練的算法就越困難

這就是讓Berenson對OpenAI一年前的結果印象深刻的地方。成功的關鍵是OpenAI打亂了每一輪訓練的模擬條件,使算法更能適應不同的可能性。

「他們用各種瘋狂的方式把模擬器搞砸了,」Berenson說。「它們不僅改變了重力的大小,還改變了重力指向的方向。因此,通過嘗試構建一個能在所有這些瘋狂模擬中可靠工作的策略,該算法實際上在真實的機器人中也能工作。

在最新的論文中,OpenAI將這種技術又向前推進了一步。在此之前,研究人員必須通過手工選擇他們認為會產生更好算法的排列方式來隨機化環境中的參數。現在的訓練系統自己就能做到這一點。每當機器人在現有環境中達到一定程度的熟練程度時,模擬器就會調整自己的參數,使訓練條件變得更加困難。

其結果是一個更加健壯的算法,可以按照現實生活中旋轉魔方所需的精度移動。通過測試,研究人員發現,Dactyl在各種沒有經過訓練的情況下也能成功地解決魔方。比如,它戴著橡膠手套,幾根手指被綁在一起,還有一個填充玩具長頸鹿在戳它。

通用的機器人

OpenAI認為,最新的研究結果提供了強有力的證據,證明他們的方法將解鎖更多的通用型機器人,這些機器人可以適應開放式的環境,比如家庭廚房。OpenAI的Marcin Andrychowicz說「魔方是世界上最複雜的剛性物體之一。」「我認為沒有比它更複雜的物體了。

他說,儘管有一些涉及更多物體或可變形物體的更複雜的任務,但他相信OpenAI的方法可以訓練所有這些物體的機器人:「我認為這種方法是機器人廣泛採用的方法。」

然而,Berenson仍然持懷疑態度。「可能會有這樣一種印象,即存在一個統一的理論或系統,而OpenAI現在只是將其應用於這個任務和那個任務,」Berenson在談到之前和當前的論文時說。但事實並非如此。這些是獨立的任務。有通用的組件,但要讓每個新任務工作仍需大量的工程。

「這就是為什麼我不贊成這會是通用用途的機器人,」他說。「我認為這是一個針對特定應用的非常具體的系統。」

貝倫森認為,問題的一部分在於強化學習本身。從本質上講,這種技術是為了掌握一件特定的事情而設計的,具有處理變化的靈活性。但在現實世界中,潛在變化的數量超出了可以合理模擬的範圍。例如,在一個清潔任務中,你可能會有不同種類的拖把,不同種類的溢出物,和不同種類的地板。

強化學習也主要是為了從頭開始學習新能力而設計的。這在機器人領域效率低下,對人類的學習方式也不適用。「如果你已經是一個相當有能力的人,我試著教你廚房裡的一項技能——就像你可能從來沒有用勺子攪拌過一樣——你不需要重新學習你的整個運動控制」貝倫森說。

貝倫森認為,要超越這些限制,就需要其他更傳統的機器人技術。最終有一天會有一些學習過程方法,可能是改良版強化學習,或是其他的,但或許還要走很長的路。

相關焦點

  • 雙手都無法還原的魔方?OpenAI的AI機器人單手就能做到!
    該組織的機器人部門表示,其去年首次亮相的機器人手Dactyl已經學會了單手解魔方。OpenAI將這個壯舉視為一次飛躍,這既體現在機器人手的靈巧性上,也體現在其自主研發的AI軟體上。這種軟體允許Dactyl在面臨真正的物理挑戰之前,利用虛擬模擬來學習如何執行新任務。
  • 玩轉魔方,靈活不輸人,OpenAI:前所未有
    說的啥新進展?單手玩魔方。相比之下,人類新手能穩穩拿住魔方都不容易:而且不僅玩得轉魔方,捆綁Play也不在話下。註:域隨機化(Domain Randomization)由OpenAI提出,能夠創建具有隨機屬性的各種模擬環境,並訓練可在任何環境中工作的模型。論文地址:https://arxiv.org/abs/1710.06537所以機械手玩轉魔方,真真是一次力與美的結合、靈與器的共舞。
  • 有史以來最精彩的自問自答:OpenAI 轉方塊的機械手
    ,他們在基於 MuJoCo 物理模擬器的 Gym 環境中新設計了含有機械臂末端控制、機械手拿取物體的兩組八個有難度的、早期強化學習算法已經不足以直接解決的問題。強化學習算法方面,OpenAI 再次選擇了之前在 DOTA2 5v5 AI 中使用的 PPO(近端策略優化),這當然也再次展示了 PPO 作為通用強化學習算法的優越性。當然,系統最大的亮點還是可以完全在虛擬環境中訓練,不需要對真實世界有準確的物理模型也可以直接遷移到真實機械手、真實物體的控制上。
  • 中國男孩同時拼3個魔方 蒙眼睛還原一個魔方僅12秒
    中國男孩同時拼3個魔方 蒙眼睛還原一個魔方僅12秒2017-08-31 17:27出處/作者:其他整合編輯:Alan責任編輯:leijunhua近日,一則「中國男孩同時拼3個魔方」消息引發網友廣泛關注,據報導稱,近日播出的澳大利亞版《小小達人秀》中,中國12歲男孩闕劍宇首先表演蒙著眼睛12秒內還原魔方,接著手腳並用同時拼3個魔方,驚呆觀眾。。。
  • OpenAI提出Reptile:可擴展的元學習算法
    近日,OpenAI發布了簡單元學習算法Reptile,該算法對一項任務進行重複採樣,執行隨機梯度下降,更新初始參數直到習得最終參數。該方法的性能可與MAML(一種廣泛應用的元學習算法)媲美,且比後者更易實現,計算效率更高。
  • App實時同步輕鬆還原魔方,計客超級魔方體驗
    充電器的安裝和取出都十分方便,只需要往魔方一側的一小塊的中心點,對準卡扣上即可,在充電的時候,機器會發出提示音。作為智能魔方,計客超級魔方採用手機APP名為[超級魔方]來配對使用。在連接方式上,通過藍牙連接。與傳統的魔方不同,用戶在玩計客超級魔方過程中,可根據魔方的實時狀態自動生成教學內容,以生動有趣的引導用戶思考探索。
  • 手把手 | OpenAI開發可拓展元學習算法Reptile,能快速學習
    大數據文摘作品編譯:Zoe Zuo、丁慧、Aileen本文來自OpenAI博客,介紹一種新的元學習算法Retile。在OpenAI, 我們開發了一種簡易的元學習算法,稱為Reptile。它通過對任務進行重複採樣,利用隨機梯度下降法,並將初始參數更新為在該任務上學習的最終參數。
  • 魔方還原方法之二階魔方還原
    魔方作為一項手部極限運動,最早出現在匈牙利,廣義上的魔方分異型魔方和正階魔方,導型魔方包括但不限於鏡面魔方、金字塔、斜轉和金字塔;正階魔方又分為二階、三階、四階、五階、六階和其他更高階的。而狹義上的魔方是指三階魔方,我們平常說魔方就是指三階魔方。
  • 金字塔魔方的還原方法
    金字塔魔方是一種四面體異形魔方,還原方法比起三階魔方要簡單許多,所以建議新手可以先從還原金字塔魔方開始學起。當然如果你已經掌握了三階魔方的還原要領,那麼金字塔魔方就更是不在話下了。金字塔魔方本身沒有什麼公式,純靠理解,為了方便初學者理解,硬給出了以下「公式」。
  • 魔方公式標準還原法,教你快速還原魔方!
    >魔方共6色6面,每面又分為中央塊(最中間的塊6個)、角塊(4角的塊8個)和 邊塊(4條邊中間的塊12個)。但是要說明的是:每面的名稱是相對的,例如F是前面,就是手拿魔方時面向自己的一面,若把模仿旋轉到另一面,那麼就有新的一面成為前面。
  • 4.22秒還原魔方!22歲小夥打破麥神三階魔方世界紀錄
    對於我們大多數人來說,還原3階魔方的一個面已經不容易了。但是一個名叫Feliks Zemdegs的小夥,只需要4.22秒就能完整還原3階魔方,並創下了新的世界紀錄!3階魔方魔方比賽是一個對腦力和手速的綜合考驗,世界上有很多的魔方遊戲粉絲也在不斷的衝擊速度極限。
  • 魔方啟智|三步還原金字塔魔方
    吐槽:事實上金字塔魔方根本不像金字塔,就是三角形魔方,一個1.5階魔方而已麼!我們分三步,就可以還原金字塔魔方。第一步,確定魔方色塊方向。首先,要還原中心塊。然而金字塔魔方是沒有中心塊的,拿紅色為例,首先找到一個沒有紅色的角,這個角的對面就是紅色的面,需要將其他的紅色的色塊向該面靠攏。
  • 三階粽子魔方還原教程
    端午節到了,你是不是那個既不會包粽子又不會玩粽子魔方的人嗎?今天端午節,就給大家出個三階粽子魔方的教程吧。視頻地址:三階粽子魔方還原教程粽子魔方是三階魔方的一種變形,還原方法可以完全用三階魔方的方法。粽子魔方的角塊、稜塊和中心塊,粽子魔方的每個中心塊都有兩種顏色,所以中心塊是有方向的。我們還原粽子魔方時要對照三階魔方分清魔方各層和各個面。這樣來分層之後就按三階魔方的方法還原,方法跟三階類似。第一步:底面十字我們將藍綠中心塊所在的面當底,做出底面十字。做時要注意中心塊方向,在視頻裡會說到。
  • 入門魔方教程_魔方教程公式_ 七步魔方還原步數
    【中外玩具網訊】對於初玩魔方的朋友而言,魔方教程、詳細的魔方圖解,公式很是重要,節省很多時間,魔方玩具作為一種益智玩具,深受廣大消費者喜愛,擁有眾多粉絲,同時也舉辦很多魔方大賽。下面隨著中外玩具網小編一起學習最為簡單的魔方還原步數,輕鬆掌握!
  • 魔方教程圖解 玩魔方的公式口訣 魔方還原步數
    每次絞盡腦汁只能復原一面或幾面魔方?只需要簡單七步走,就可以還原三階魔方。魔方,英文名為Rubik's Cube,又叫魔術方塊,也稱魯比克方塊,魔方作為一種智力玩具,備受各國人民的追捧。是匈牙利布達佩斯建築學院厄爾諾·魯比克教授在1974年發明的。三階魔方系由富有彈性的硬塑料製成的6面正方體,共有26塊小立方體。
  • 三階魔方還原圖文教程-番茄魔方
    本課程為三階魔方最常用的初級解法,也就是大家所說的層先法。課程中詳細地講解了每一步所需要用到的公式和所遇到的各種情況,非常適合新手學習。註: 魔方不是一面一面去還原的,而是一層一層的去還原!!!!簡介下魔方的還原過程①建立底層十字②還原第一層③還原第二層稜塊④建立頂層十字⑤構建頂層完整頂層⑥還原頂層角塊⑦還原頂層稜塊(還原魔方)公式字母表示F- Front 前面,你正對的一面B- Back 後面,背對你,(你看不到)的那一面R- Right 左側面L- Left 右側面U- Up 頂面D -Down 底面魔方的稜塊、角塊和中心塊稜塊是帶有兩個顏色的角塊是帶有三個顏色的中心塊是面上最中心的塊
  • 數學家表明:打破魔方的難度比還原魔方更難
    魔方還原技巧只要買魔方就會有,你知道打亂一個魔方有多難嗎?​​40 年來,魔方一直是世界上最受歡迎的謎題之一。正如無數的書中所解釋的那樣,人們已設計出好幾種不同的方法來解決這個問題。有經驗的「快速魔方玩家」可以在幾秒鐘內解決這個問題,將魔方還原。除了其驚人的靈活性,與魔方相關的還有許多迷人的數學問題。
  • 魔方教程 |三階魔方還原公式
    首先,破解魔方,我們就要先了解它的結構,魔方共6色6面,每面又分為中央塊(最中間的塊6個)、角塊(4角的塊8個)和邊塊(4條邊中間的塊
  • 圖解快速記憶金字塔魔方的還原方法
    金字塔魔方是一種四面體異形魔方,還原方法比起三階魔方要簡單許多,所以建議新手可以先從還原金字塔魔方開始學起。當然如果你已經掌握了三階魔方的還原要領,那麼金字塔魔方就更是不在話下了方法1金字塔魔方由三部分組成,中心塊,稜塊,角塊。
  • AI 能還原一個三階魔方
    周三晚上好,《矽谷望遠鏡》是一檔新的欄目,這是我們的第一期,我們希望能在每一期帶給你們新鮮有趣的全球科技資訊。那麼,就讓我們一起享用《矽谷望遠鏡》的第一期吧。一眨眼的功夫,AI 就把魔方給還原了AI solves Rubik's cube in under a second——加州大學歐文分校的研究人員編寫了一種機器學習算法,讓 AI 可以在不到一秒的時間內還原一個被打亂的三階魔方