選自arXiv
作者:Maegan Tucker 等人
機器之心編譯
機器之心編輯部
上周末,機器人領域頂級會議 ICRA 2020 放出了所有獎項的結果,來自加州理工和清華大學的 Maegan Tucker 等人的工作獲得了本屆大會最佳論文獎。本論文還同時獲得最佳人機互動論文獎(Best Paper Award on Human-Robot Interaction)。
論文連結:https://arxiv.org/abs/1909.12316
這項研究展示了如何利用「個人偏好」,來定製化提升人類使用下肢外骨骼的舒適感。以往,機械外骨骼一直被美國軍隊視為提升士兵作戰能力的工具,但加州理工和清華大學的這項研究在未來或許可為數千萬殘障人士帶來幫助。
該研究提出了一種叫做 COSPAR 的算法,它可以將合作學習應用於下肢外骨骼操作時對人類偏好的適應,並在模擬和真人實驗中進行了測試。
論文參與方有Caltech的Aaron Ames組、Joel Burdick組和Yisong Yue組,以及清華大學的Yanan Sui組。
研究者表示,未來計劃將 COSPAR 用於優化規模更大的步態參數,但可能需要集成該算法與更多可用於高維特徵空間學習的技術。這一方法還可以擴展到預計算步態庫以外的數據,進而生成全新的步態或者控制器設計。
從輔助移動到自動駕駛,從教育到對話系統,人機互動在多個應用領域得到了越來越多的關注。在這些領域中,為了使機器人系統和人類用戶的交互效果最優化,機器人系統必須根據用戶的反饋做出適應性調整。具體而言,機器人系統從用戶反饋中學習有助於改進機器人輔助設備。
這項研究致力於優化下肢外骨骼 Atalante 的步態,以最大程度地提升用戶舒適度。
Atalante 是法國初創公司 Wandercraft 開發的第四代下肢外骨骼設備,它使用 12 個驅動關節(actuated joint),來幫助下肢運動障礙的人恢復移動能力。利用 Atalante 進行的現有工作證明了,利用局部混合零動態(partial hybrid zero dynamics,PHZD)方法可以實現動態穩定地行走,該方法最初是為雙足機器人設計的。
儘管 PHZD 方法能夠生成穩定的雙足移動,但目前仍沒有能夠提升舒適度的框架。然而,用戶舒適度應該是優化外骨骼行走步態的關鍵目標。現有方法能夠讓雙足機器人擁有和人類類似的行走步態,但它們無法滿足用戶的個人偏好。
就像涉及人類的很多現實世界設置一樣,對於外骨骼步態生成而言,可靠地指出數值分數或者提供 demo 都是有挑戰性的。在這樣的情況下,用戶的相關偏好(relative preferences)能夠更可靠地度量他們的舒適度。之前的研究已經發現,在信息檢索和自動駕駛等多個領域中,用戶偏好比數值分數更可靠。
基於決鬥賭博機(dueling bandits)和合作學習(coactive learning),該研究提出了 COSPAR 算法來學習用戶偏好的外骨骼步態。COSPAR 是一種混合驅動(mixed-initiative)方法,既可以查詢用戶的偏好,也允許用戶提出改進意見。研究者在模擬和真人實驗中進行了驗證。實驗表明,COSPAR 能夠在步態庫中找到用戶偏愛的步態。此過程不僅可以識別用戶偏好的行走軌跡,還可以洞悉用戶對某些步態的偏好。
基於用戶偏好的學習算法
從人的主觀反應中學習時,偏好反饋比絕對反饋更加可靠,因此該研究利用「基於偏好的學習」(如用戶喜歡步態 A 還是步態 B?),來確定用戶最喜歡的步態參數。因此,該研究個性化外骨骼步態的目標可以被定義為決鬥賭博機和合作學習問題。
該研究基於 Self-Sparring 算法構建。這是一種貝葉斯決鬥賭博機方法,既具備有競爭力的理論收斂保證,又擁有實證性能。Self-Sparring 算法基於每個動作對用戶的效用來學習貝葉斯後驗,並通過偏好誘導從模型的後驗中抽取多個樣本進行決鬥。
Self-Sparring 算法可以迭代地執行以下操作:a)從動作效用的後驗模型中提取多個樣本;b)對於每個樣本模型,用最高的採樣效用執行動作;c)在已執行動作之間查找偏好反饋;d)根據獲取的偏好數據更新後驗。
為了收集更多的反饋信息,研究者允許用戶在試用期間提出改進建議。這種方法類似於合作學習框架,即用戶將改進的動作作為對每個動作的反饋。
合作學習已經應用於機器人軌跡規劃,但尚未用於機器人步態生成或與偏好學習相結合。
COSPAR 算法
為了優化步態庫內的外骨骼步態,研究者提出了一種混合驅動學習方法 COSPAR 算法,該算法擴展了 Self-Sparring 算法,將主動反饋融入其中。
和 Self-Sparring 類似,COSPAR 維護基於可能動作的貝葉斯偏好關係函數,該函數用於觀察到的偏好反饋。COSPAR 基於用戶反饋更新模型,並用它來選擇新試驗的動作,並誘導反饋。
該研究首先定義了貝葉斯偏好模型,然後細化了算法 1 的步驟。
COSPAR 算法。
模擬實驗
研究者在兩種模擬環境中對 COSPAR 的性能進行評估。
首先,利用兩足動物模擬 CG 來評估 COSPAR 的性能,並通過偏好反饋基於步長優化 COT(cost of transport),如下圖 2 所示:
圖2。
然後通過對比 COT 值來確定偏好。COT 值是通過模擬多個步長的步態來計算的,每個步長均保持固定 0.2 m/s 的髖關節速度。這些模擬步態是通過 single-point shooting 局部混合零動態方法合成的。
接下來,研究者在綜合 2D 效用函數上測試 COSPAR,如圖 3(a)所示。每個效用函數都是基於 30x30 網格上的高斯過程先驗生成的。這些實驗評估了將 COSPAR 擴展至更高維度時的性能,以及合作反饋的優勢。
圖 3:a)綜合 2D 目標函數示例。b)在模擬條件(n=1; b = 1; 主動反饋)下,COSPAR 經過 150 次迭代後學習到的效用模型後驗。COSPAR 會優先確定和探索最佳區域,而不是學習全局精確效用圖景(globally-accurate utility landscape)。
模擬結果如圖 4 所示。在每種情況下,涉及合作反饋的混合驅動模擬都比只接收偏好的模擬表現要好。
圖 4:在 2D 綜合目標函數上的 COSPAR 模擬結果,對比了 n、b 和有 / 無合作反饋三種不同參數設置情況下的 COSPAR 算法。從中可以看出,合作反饋總是能起到作用的,n = 2, b = 0 這種情況下的效果最差,因為接收到的偏好最少。
真人實驗
在模擬實驗之後,研究者將 COSPAR 部署在下肢外骨骼設備 Atalante 上,進行了兩項人類受試者的個性化步態優化實驗。這兩項實驗的目的是,確定使用戶舒適度最大化的步態參數值,比如偏好和合作反饋。
第一個實驗針對三個健康的受試者,用 COSPAR 來確定受試者的偏好步長,也就是在一維特徵空間中進行優化。
第二個實驗展示了 COSPAR 在二維空間中的有效性,並在兩個不同的步態特徵對上同時進行了優化。重要的是,COSPAR 不依賴於步態特徵的選擇。
從圖 1 中可以看到,研究者還通過直接測熱法記錄了受試者的代謝支出,但由於使用者沒有消耗太多的精力在步行動作上,這個數據並不能說明使用者偏好。
圖 6:二維特徵空間中的實驗結果(上一行:步長和持續時間;下一行:步長和寬度)。1 到 4 列展示了偏好模型的後驗均值變化。第四列還展示了受試者在 20 次試驗後採樣三次步態的盲測分數。第五行按照時間順序描繪實驗結果。COSPAR 從後驗偏好分數更高的區域抽取了更多樣本。
參考內容:
https://venturebeat.com/2020/06/03/caltech-ai-lab-optimizes-exoskeleton-gait-for-human-comfort/
原標題:《ICRA 2020最佳論文授予加州理工、清華大學:首個自適應外骨骼步態AI算法》
閱讀原文