2)環境中尋找目標
16年,李飛飛組放出了一篇論文,基於深度強化學習,在以目標圖像為輸入的情況下,不建圖去找東西。大致思路是:根據機器看到的圖,決定怎麼走,然後再看圖,再決定新走的一步,直到找到東西。論文將目標圖像作為輸入,訓練出來的神經網絡具有通用性。
這種方式找東西更接近人的思維。訓練出的控制器並沒有記住物體的位置,更不知道房屋的結構。但它記住了在每一個位置,通向各個物體應該怎麼走。
3)機器人抓取
傳統的機器人學研究認為,需要非常清楚要抓取的物體的三維幾何形狀,分析受力位置和力的大小,再反向計算機器手如何一步步移動到這些位置。但這種方式抓取不規則形狀和柔性物體會很困難。例如毛巾,可能需要看成一系列剛體的連結,再進行動力學建模分析,但是計算量比較大。而小黃鴨那樣的橡膠,外部並不能看出彈性程度,難以計算出需要施加的正確的力。
Pieter Abbeel、DeepMind和OpenAI關於機器人控制的研究,都以此深度強化學習為基礎。基於強化學習進行機器人抓取,以機器視角看到的圖像為輸入,以機器最終抓到物體為目標,不斷對機器進行訓練,從而在不建模和不做受力分析的情況下,實現對物體的抓取。Pieter Abbeel已經展示過機器人疊毛巾,開瓶蓋,裝玩具等複雜的動作。
不過基於強化學習也仍有很多問題,如效率低、推理過程長、任務難以描述、不能終身學習、不能最大限度從真實世界獲取信息等。其中一些通過meta學習,one-shot學習,遷移學習,VR示教等方法的引入得到了改善,有些則還暫時難以解決。
5.Dexterity Network
鑑於深度強化學習的各種問題,Pieter Abbeel在UCBerkeley的同事Ken Goldberg,則採用了叫做Dexterity Network(Dex-Net)的研究思路。首先通過傳統機器人學中分析受力和建模的思路,建立一個包含大量數據的數據集,這個數據集裡的每一項數據包含一個物體的模型和這個物體在不同姿態下可以被穩定抓起來的施力方式,這些施力方式是通過物體模型計算出來的。有了數據之後,用這些數據訓練一個神經網絡。然後給出一個新物體,通過神經網絡判斷這個物體和數據集裡哪個物體最相似,然後根據最相似的物體的數據集裡包含的施力方式計算出這個新物體的最穩定施力方式。
Ken Goldberg的方案的一個重要弊端,是計算量過於龐大。整個算法佔用了Google雲伺服器上的1500臺虛擬機的計算量。此方法也讓「雲機器人」這個概念受到了關注。
目前Pieter Abbeel和Ken Goldberg的兩種方法還處於學術爭議階段,新的研究成果還在不斷出現,也還有很多問題沒有解決,尤其是穩定性和魯棒性是各方爭議的焦點。不同於語音識別音箱出了錯,無非是鬧個笑話,機器人系統對穩定性和可靠性的要求非常高,系統一旦出錯,輕則毀物,重則造成人類的生命危險。Pieter Abbeel也承認目前還沒考慮魯棒性和穩定性問題,似乎整體還沒達到商用產品級。
總結
總體而言,以強化學習為代表,AI在機器人控制領域近兩年取得了一些進展,尤其是在過去研究方法難以突破的環境交互問題方面取得了進展。但基於神經網絡的控制系統,在魯棒性等方面短期似乎難以得到解決,因此離實際應用還有很遠的距離。在多種研究方法的共同努力下,我們也期待機器人控制問題能夠早日有所突破。