雷鋒網 AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術挑戰賽也接近尾聲。關於挑戰賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰賽已經開始啦
在上周結束的 2018 人工智慧假肢挑戰賽(AI for Prosthetics Challenge)中,來自中國百度的技術團隊 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領先第二名高達 30 多分。
人工智慧假肢挑戰賽是由史丹福大學神經生物實驗室與EPFL 聯合舉辦的強化學習賽事,旨在通過將強化學習應用到人體腿部骨骼仿真模擬模型的訓練,從而加快人體假肢領域的相關研究,並開創該領域的研究的新方法。
自今年 7 月份啟動以來,來自全球 400 多技術團隊都參與其中。其中既有上屆冠軍、由 「RNN之父」Juergen Schmidhuber 創立的 NNAISENSE,也有阿里巴巴、Yandex 等巨頭。
今年的比賽中,賽會組織者提供了一個人體骨骼-高仿模型,該模型是斯坦福國家醫學康復研究中心研發的 Opensim 高仿模型,擁有人類腿部絕大多數真實骨骼、關節和肌肉的精細仿真。參賽者需要根據該模型中多達 100 個以上的狀態,來決定模型肌肉的信號,然後控制該模型的肌體行走。
在去年的第一次挑戰賽上,比賽規則圍繞誰能讓模型肌體行走速度最快。而今年除了將整個模型運動控制從 2D 改為 3D 外,還引入帶有假肢的模型,同時模型的假肢不可控制,模型肌體行走的速度也有要求,並且還需要在第二輪比賽中按照事先未知的指定速度進行切換。
相較而下,今年的比賽難度再次增加。比如對模型肌體有效信息的判斷上,由於實際狀態空間和動作空間稠密並且非常大,導致基於強化學習的算法無法準確把握模型肌體的行走姿勢;更進一步,由於規則要求不斷切換速度,更增加了模型控制難度。
在此次比賽中,百度首先通過上千臺機器的 CPU 集群來加速模擬環境,利用 RPC 機制進行機器間通信,從而能在高性能 GPU 上進行高效的模型訓練。
其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG),使得模型能夠應對較大空間和連續動作空間的挑戰,最終也使得一個單一模型能夠學習多種速度和姿態。
第三,在算法層面,通過 multi-head bootstrapping,能夠更高效的對巨大的解空間進行探索(Exploration),同時還將旋轉不變性等各類特徵處理方式,以及不斷實驗累計的各類 reward shaping 方法應用其中。
正是這些關鍵技術的綜合應用,讓百度能以 9980 的高分一舉奪冠。據悉,早在本次比賽以前,百度已經將強化學習技術應用於信息流推薦、廣告展現、搜索排序等大規模工業級場景。而本次比賽中所展現出的技術實力,再次證明了百度在強化學習相關技術上的積累也能夠進一步推廣到複雜機器人控制、自動駕駛等更多工業領域。
比賽更多詳細信息,請參見:
https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge