OpenAI的研究人員開發了一種新方法,可以將複雜的操作技能從模擬環境轉移到物理環境中。
一年多前,總部位於舊金山的營利性人工智慧研究實驗室OpenAI宣布,它已經訓練了一隻機械手,能夠以驚人的靈巧程度操縱一個立方體。
這聽起來可能並不驚天動地。但在人工智慧領域,它之所以令人印象深刻,有兩個原因。首先,這隻手通過強化學習算法(一種模仿動物學習方式的技術)自學了如何擺弄魔方。其次,所有的訓練都是在模擬環境中進行的,並且又成功地將其轉化到現實世界中。在這兩個方面,這都是朝著工業和消費者應用程式更敏捷的機器人邁出的重要一步。
在昨天的一篇新論文中,OpenAI發布了它的機械手Dactyl的最新結果。這一次Dactyl學會了用一隻手來解決魔方,還是通過模擬中的強化學習。這並不是因為機器人破解了古老的謎題,而是因為這一成就提高了機器人的靈活性。
「這是一個非常困難的問題,」密西根大學專門研究機器操作的機器人專家德米特裡·貝倫森(Dmitry Berenson)表示。「旋轉魔方所需的操作實際上比旋轉立方體要困難得多。」
從虛擬世界到物理世界
傳統上,機器人只能以非常簡單的方式操縱物體。儘管強化學習算法在完成軟體中的複雜任務方面取得了巨大成功,比如在古老的圍棋遊戲中擊敗了最優秀的人類棋手,但用它們來訓練一臺物理機器則是另一番景象。這是因為算法必須通過反覆試驗來完善自己——在很多情況下,要經過數百萬輪的反覆試驗。一個物理機器人要在現實世界中做到這一點,可能需要太長的時間和大量的磨損。如果機器人為了收集數據而亂蹦亂跳,甚至會有危險。
為了避免這種情況,機器人專家使用仿真技術:他們為自己的機器人建立一個虛擬模型,並對其進行虛擬訓練,以完成手頭的任務。該算法在安全的數字空間中學習,然後移植到物理機器人中。但這一過程也伴隨著自身的挑戰。幾乎不可能建立一個完全複製現實世界中所有相同物理定律、物質屬性和操作行為的虛擬模型——更不用說那些意想不到的情況了。因此,機器人和任務越複雜,在物理現實中應用虛擬訓練的算法就越困難。
這就是讓Berenson對OpenAI一年前的結果印象深刻的地方。成功的關鍵是OpenAI打亂了每一輪訓練的模擬條件,使算法更能適應不同的可能性。
「他們用各種瘋狂的方式把模擬器搞砸了,」Berenson說。「它們不僅改變了重力的大小,還改變了重力指向的方向。因此,通過嘗試構建一個能在所有這些瘋狂模擬中可靠工作的策略,該算法實際上在真實的機器人中也能工作。」
在最新的論文中,OpenAI將這種技術又向前推進了一步。在此之前,研究人員必須通過手工選擇他們認為會產生更好算法的排列方式來隨機化環境中的參數。現在的訓練系統自己就能做到這一點。每當機器人在現有環境中達到一定程度的熟練程度時,模擬器就會調整自己的參數,使訓練條件變得更加困難。
其結果是一個更加健壯的算法,可以按照現實生活中旋轉魔方所需的精度移動。通過測試,研究人員發現,Dactyl在各種沒有經過訓練的情況下也能成功地解決魔方。比如,它戴著橡膠手套,幾根手指被綁在一起,還有一個填充玩具長頸鹿在戳它。
通用的機器人
OpenAI認為,最新的研究結果提供了強有力的證據,證明他們的方法將解鎖更多的通用型機器人,這些機器人可以適應開放式的環境,比如家庭廚房。OpenAI的Marcin Andrychowicz說:「魔方是世界上最複雜的剛性物體之一。」「我認為沒有比它更複雜的物體了。」
他說,儘管有一些涉及更多物體或可變形物體的更複雜的任務,但他相信OpenAI的方法可以訓練所有這些物體的機器人:「我認為這種方法是機器人廣泛採用的方法。」
然而,Berenson仍然持懷疑態度。「可能會有這樣一種印象,即存在一個統一的理論或系統,而OpenAI現在只是將其應用於這個任務和那個任務,」Berenson在談到之前和當前的論文時說。但事實並非如此。這些是獨立的任務。有通用的組件,但要讓每個新任務工作仍需大量的工程。」
「這就是為什麼我不贊成這會是通用用途的機器人,」他說。「我認為這是一個針對特定應用的非常具體的系統。」
貝倫森認為,問題的一部分在於強化學習本身。從本質上講,這種技術是為了掌握一件特定的事情而設計的,具有處理變化的靈活性。但在現實世界中,潛在變化的數量超出了可以合理模擬的範圍。例如,在一個清潔任務中,你可能會有不同種類的拖把,不同種類的溢出物,和不同種類的地板。
強化學習也主要是為了從頭開始學習新能力而設計的。這在機器人領域效率低下,對人類的學習方式也不適用。「如果你已經是一個相當有能力的人,我試著教你廚房裡的一項技能——就像你可能從來沒有用勺子攪拌過一樣——你不需要重新學習你的整個運動控制,」貝倫森說。
貝倫森認為,要超越這些限制,就需要其他更傳統的機器人技術。最終有一天會有一些學習過程的方法,可能是改良版強化學習,或是其他的,但或許還要走很長的路。