人工智慧(AI)研究組織OpenAI在製造具有通用性、能夠自我學習的機器人方面取得了新的裡程碑。該組織的機器人部門表示,其去年首次亮相的機器人手Dactyl已經學會了單手解魔方。OpenAI將這個壯舉視為一次飛躍,這既體現在機器人手的靈巧性上,也體現在其自主研發的AI軟體上。這種軟體允許Dactyl在面臨真正的物理挑戰之前,利用虛擬模擬來學習如何執行新任務。
在展示Dactyl新才藝的演示視頻中,我們可以看到機器人手以摸索的方式逐漸破解魔方,雖然其動作顯得有點兒笨拙,但卻十分精確。儘管破解的過程有點兒長,但Dactyl最終解決了這個難題。這個機器人手的動作看起來明顯不如真正的人手靈活,甚至有點兒脫節,更無法與那些能在短短幾秒鐘內破解魔方的人的驚人速度和敏捷相比。
但對於OpenAI而言,Dactyl的成就使其向更廣泛的AI和機器人行業令人嚮往的目標又邁進了一步。這個行業希望研發出能夠學習執行各種現實世界任務的機器人,它們無需培訓數月乃至數年時間,也無需專門進行編程。
OpenAI的研究科學家和機器人技術負責人彼得·韋林德(Peter Welinder)說:「很多機器人都可以非常快地破解魔方。但它們所做的事情和我們正在做的事情之間存在重要區別,那些機器人都有著特定任務目標。顯然,你不可能使用相同的機器人或相同的方法來執行另一項任務。OpenAI的機器人團隊有著截然不同的雄心壯志,我們正在嘗試建造通用機器人,比如像人手那樣可以做很多不同的事情,而不僅僅是執行特定的任務,我們正在試圖在一定範圍內能夠通用的東西。」
韋林德指的是過去幾年中出現的各種機器人,這些機器人已經將破解魔方的方法推向遠遠超越人類雙手和思維的極限。2016年,半導體製造商英飛凌(Infineon)開發了一款專門用於以超快速度破解魔方的機器人,該機器人成功地在一秒鐘內完成了這個任務。這打破了當時由人類保持的世界紀錄(不到5秒)。兩年後,麻省理工學院開發的一臺機器在不到0.4秒的時間破解了魔方。
換句話說,為某一特定任務而設計的機器人,並被編程為儘可能高效地執行該任務,通常最適合人類,而破解魔方是軟體很久以前就掌握的東西。因此,開發機器人來破解魔方,即使是與人手相似的機器人,本身也並不是那麼引人注目。Dactyl操作的速度十分緩慢,這讓其取得的成就更顯得不起眼兒。
但是OpenAI的Dactyl機器人和驅動它的軟體,在設計和用途上與專用的魔防破解及其有很大的不同。正如韋林德所說的那樣,OpenAI正在進行的機器人研發工作並不是為了在狹隘任務中獲得卓越的結果,因為這只需要你開發更好的機器人並相應地對它進行編程就可做到。這甚至可以在沒有現代AI支持的情況下完成。
取而代之的是,Dactyl是從頭開始、逐漸掌握自學能力的機器人手,它可以像人類那樣處理新的任務。Dactyl同樣需要接受軟體訓練,目前正試圖以一種初級方式複製數百萬年的進化經驗,這些經驗也曾幫助我們學習如何在孩提時代本能地使用自己的手。OpenAI希望將來能幫助人類發展出我們只能從科幻小說中看到的類人機器人,這些機器人可以在不危及我們安全的情況下融入社會中,並在城市街道和工廠車間這樣的混亂環境中執行各種各樣的任務。
為了學習如何單手破解魔方,OpenAI沒有對Dactyl進行顯式編程來幫助其破解魔方,網際網路上的免費軟體可以幫解決這一問題。OpenAI還選擇不為機器人手的個別動作進行編程,因為該組織想讓Dactyl自己識別這些動作。取而代之的是,機器人團隊給機器人手的底層軟體設定了破解魔方的最終目標,並使用現代AI(特別是名為強化學習的基於激勵的深度學習技術)來幫助它自學如何解決問題。利用同樣的AI訓練方法,OpenAI曾開發出世界上最先進的《DOTA 2》遊戲機器人。
但直到最近,訓練AI代理做些虛擬的事情(例如玩電腦遊戲)比訓練它執行現實世界任務要容易得多。這是因為,研究人員可以加快訓練軟體在虛擬世界中做某些事情的速度,這樣AI就可以在現實世界的短短幾個月時間內接受相當於數萬年的訓練,這得益於數千個高端CPU和超強大GPU並行工作的結果。
用物理機器人進行同樣水平的訓練並執行物理任務是不可行的。這就是為何OpenAI試圖用模擬環境代替現實世界來開創機器人訓練新方法的理由,這也是機器人行業幾乎沒有嘗試過的東西。在這種情況下,該軟體可以同時在許多不同的計算機上以加速方式進行廣泛的練習,並希望它在開始控制真正的機器人時保留這些知識。
由於訓練的局限性和存在明顯的安全問題,今天商業中使用的機器人不使用AI,而是用非常具體的指令進行編程。韋林德解釋稱:「過去的方法是,你需要使用非常專業的算法來解決特定任務,你可以對機器人模型和環境進行精確操控。對於工廠機器人來說,你有非常精確的模型,而且你也確切地知道自己所處的工作環境,因此你非常了解它將如何執行特定的任務。」
這也是為何當前機器人遠沒有人類那麼多才多藝的最重要原因。人們需要大量的時間、精力和金錢來重新給特定的機器人編程,比如組裝汽車特定部件或計算機組件的機器人。沒有經過適當訓練的機器人,即使是在執行人類看起來非常簡單的任務,它都會經歷慘敗。然而,有了現代AI技術,機器人可以模仿人類,這樣它們就可以使用對世界同樣直觀的理解來做從開門到煎蛋等各種事情。至少,這是我們的夢想。
我們距離機器人能夠執行這種複雜程度的任務仍然有幾十年的距離,AI社區在軟體方面所取得的飛躍,比如自動駕駛汽車、機器翻譯和圖像識別,還沒有完全轉化為下一代機器人身上。目前,OpenAI只是試圖模仿人體某一部位的複雜性,並讓機器人的模擬操作變得更自然。
這就是為何Dactyl會被模仿人手設計成擁有24個關節機械手的原因,它與我們在工廠裡看到的機械爪或機械鉗完全不同。對於支持Dactyl學習如何以人類的方式利用所有這些關節的軟體,OpenAI嘗試在現實世界中破解魔方之前,已經在模擬環境中對其進行了數千年的訓練。
韋林德指出:「如果你正在對現實世界的機器人進行某種訓練,很明顯,你所訓練的東西都是在你想要部署算法的領域發揮作用。這樣,事情就簡單多了。但是現在的算法需要大量數據訓練。要在真實世界中訓練機器人,做任何複雜的事情,你需要多年的經驗。即使對人來說,也需要幾年的時間才能掌握人類經過數百萬年進化來的經驗,進而學會如何操控手部。」
然而,韋林德稱,在模擬中,這種訓練可以加速,就像遊戲和完成其他廣受歡迎的AI基準任務一樣。他補充說:「通常情況下,往往需要幾千年的時間來訓練算法。但在虛擬環境中,這只需要現實世界幾天的時間,因為我們可以將訓練並行化。在你訓練這些算法時,你也不必擔心機器人會破壞或傷害別人。」然而,研究人員過去在試圖讓虛擬訓練在實體機器人上工作時遇到了相當大的麻煩。OpenAI表示,它是第一批在這方面真正看到取得進展的組織之一。
當被給予真正的魔方時,Dactyl利用了自己接受的訓練,並自己解決了這個問題,並且它是在各種從未明確接受過訓練的條件下做到的。這包括戴著手套單手破解魔方,兩根手指需要緊緊夾起來,而OpenAI成員不斷地用其他物體戳它,並用氣泡和像五彩紙屑一樣的紙片不斷幹擾它。
韋林德的同事、OpenAI機器人團隊負責人馬蒂亞斯·普拉佩特(Matthias Plappert)說:「我們發現,在所有這些擾動中,機器人仍然能夠成功地轉動魔方,儘管它在訓練中沒有經歷過這些。當我們在物理機器人上嘗試這種方法時,這些發現讓我們感到驚訝。」
這就是為何OpenAI認為Dactyl新獲得的技能對於機器人硬體的發展和AI培訓至關重要的原因。即使是世界上最先進的機器人,比如由行業領軍者波士頓動力公司(Boston Dynamics)開發的人形機器人和類狗機器人,也不能自主操作,它們需要廣泛的特定任務編程和頻繁的人工幹預才能執行最基本的操作。
OpenAI表示,Dactyl朝著未來機器人邁出了一小步,這種機器人可能將來會獨立執行體力勞動或家務活,甚至可以與人類一起工作,而不僅僅是待在封閉的環境中,也無需對它們進行任何編程。在未來的願景中,機器人學習新任務和適應不斷變化環境的能力,將與AI的靈活性以及物理機器的健壯性同樣重要。普拉佩特說:「這些方法真的開始證明,這是處理我們物理世界所有固有複雜性和混亂的最佳解決方案之一。」