由於城市環境的場景複雜性高,行為規劃器未能匹配預定義的行為模板這種不可預測的情況可能發生。最近,引入了通用規劃器(general-purpose planner),將行為和局部運動規劃相結合。給定單一獎勵,這些通用規劃器允許行為覺察的運動規劃。然而,出現了兩個挑戰:首先,該功能必須將複雜的特徵空間映射到獎勵中。其次,獎勵函數必須由專家手動調整。手動調整此獎勵函數的工作變得繁瑣。
本文提出一種依靠人類駕駛來自動調整獎勵函數的方法。它為最大熵逆強化學習(maximum entropy inverse reinforcement learning)的通用規劃器提供了駕駛風格優化的重要見解。
下圖解釋這裡的自動駕駛通用規劃器。可視化狀態空間的顏色編碼指示狀態-動作的值(z-軸對應於速度)。 三種顏色編碼策略:黑色表示規劃的最佳策略,紅色表示人類操作的裡程表(odometry),綠色表示操作投影到狀態空間。
與直接模仿和獎勵學習等有監督學習方法相比,強化學習(RL)通過經驗學習和與環境的互動來解決規劃問題。其他交通參與者的意圖預測可以通過多代理交互(multi-agent interactions)直接學習。
學習行為可能包括多個駕駛參與者的複雜談判。目前大部分工作都側重於模擬駕駛體驗,並面臨著從模擬到現實駕駛的挑戰,特別是對城市場景。另一個挑戰是如何在方法中制定功能安全性。目前IRL大部分都採用最大熵原理,通過梯度下降的概率模型訓練,其中梯度計算取決於狀態訪問頻率(state visitation frequency),通常類似強化學習的後向值迭代(backward value iteration)算法。由於維數詛咒(curse of dimensionality)問題,該算法對高維連續空間中的駕駛風格優化是難以實現的。
代理與環境的相互作用通常被表述為由5元組{S,A,T,R,γ}組成的馬爾可夫決策過程(MDP),其中S表示狀態集,A表示行動集合。對於s,s'∈S,a∈A,用轉移函數T(s,a,s')使得連續動作a在時間t積分。獎勵函數R為狀態S的每個動作A分配獎勵,其中獎勵在時間t上被γ打折扣。
環境M的模型在狀態s中動作a執行之後返回特徵向量fi和和結果狀態s'。
獎勵函數R由K個特徵值fi與權重θi的線性組合給出,使得,(s,a)∈S×A:
策略π是一系列時間連續轉移T,策略π的特徵路徑積分fiπ由下式定義
在環境模型M中迭代執行採樣的狀態-操作(state-action)集As可近似通路積分(path integral)。策略π的值Vπ是連續轉移期間折現獎勵的積分。最優策略π*具有最大累積值,
車輛行駛裡程記錄提供了人類操作ζ,裡程表記錄ζ在狀態-動作(state-action)空間的投影將這種操作公式化為策略πD。
在每個規劃周期,考慮一組在幾何上接近裡程記錄ζ的操作ΠD。規划算法返回具有不同駕駛特性的有限策略集Π。最終選擇的駕駛策略πS並滿足基於模型的約束。
下面這個功能流程圖的規劃系統利用MPC來討論環境模型的更新:模塊的左側輸入對應於前一個功能的輸出。模塊頂部的輸入表示前一個功能的中間輸出。粗實線表示從環境感知fp到駕駛軌跡ζ的主流。重點關注的是,影響獎勵學習體系結構的深灰色塊。模塊之間的虛線連接指示訓練過程中的信息流。數據收集過程記錄了環境以及司機πH隱駕駛策略的裡程數ζ。
如下算法1正式描述了基於搜索的規劃方法。規劃器為指定的規劃範圍(planning horizon)H生成軌跡。為離散的轉移長度(transition lengths)做規劃可迭代地構建時間範圍(the time horizon)H的軌跡。規劃器用GPU並行地為所有狀態s∈St採樣一些離散的連續動作As。該分布是基於車輛約束條件計算的,並且近似表示了每個狀態s幾乎所有動態地可行動作。這些動作本身由時間連續的多項式函數表示:縱向動作由速度曲線描述,直到五階多項式;橫向作用由輪角的三階多項式描述。
搜索算法針對所有狀態s∈St調用環境M的模型,觀察結果狀態s',轉移T和每個狀態-動作元組(state-action tuple)的特徵f。將環境模型中時間連續動作整合可生成特徵向量f。 標註函數將類別標籤分配給轉換,例如與碰撞關聯的標籤。 修剪操作會限制下一個轉移步驟t+1∈H的狀態集St+1。基於價值V(s)、標籤c和可訪問集合St的屬性修剪可終止低價值V的冗餘狀態(S)。 該算法類似於並行廣度優先搜索(BSF)和前向值迭代。 基於策略價值V(π)和基於模型的約束選擇最終駕駛策略πS。
在IRL公式中,找到在規劃周期內最能描述人類操作πD∈ΠD的獎勵函數權重θ,最大化策略集Π中專家行為的對數似然函數L,如下
然後,在人類操作的特徵路徑積分fπ與研究策略的特徵期望匹配的約束下,進行優化,即
對數似然函數的梯度可以推導如下
並做梯度下降優化。
下面是一個實驗的規劃性能結果:展示多個細分的訓練和驗證指標以及訓練初始化示意圖。 訓練時最大熵IRL的收斂性。與人類操作的預期距離減少來驗證訓練結果。(a)左圖是在學習的獎勵功能下,人類駕駛操作期望值與規劃器策略期望值之間的差異。(b)在學習的獎勵功能下,規劃器策略與人類駕駛示範的預期距離。
「Behavior Planning of Autonomous Cars with Social Perception」
自動駕駛汽車往往在充滿不確定性的動態環境中航行。不確定性可能來自1)傳感器限制,例如遮擋和有限的傳感器範圍,2)來自對其他車輛的概率預測,3)來自新地區未知的社會行為。在這些不確定性的情況下,為了安全有效地駕駛,自動駕駛的決策和規劃模塊應智能地利用所有可用信息並適當地解決不確定性,以便產生適當的駕駛策略。
本文提出了一種社會感知(social perception)方案,該方案將所有車輛視為分布式傳感器網絡中的傳感器。通過觀察個體行為以及群體行為,在置信空間(belief space)統一地更新這三種不確定性。將來自社會感知的更新置信明確地併入模型預測控制(MPC)的概率規劃框架中。
MPC的成本函數通過反向強化學習(IRL)學習。這種社會性增強感知(enhanced perception)的綜合概率規劃模塊使自主車輛產生有防禦性、但不過度保守且社會兼容的駕駛行為。
如圖演示了幾種示例性場景,其中其他車輛和行人可以作為傳感器來克服遮擋或傳感器受限範圍。 在(a)中,由於V1和V2引起的遮擋,主車V0不能檢測到行人。 V1的行為可被用作傳感器,實現社會感知這個潛在行人。 在(b)中,主車V0在單向T形交叉口處右轉。 在(c)中是有信號燈的交叉口。 主車V0(右轉)只能檢測前方的信號(紅燈)並控制自己方向。它應讓步於較高速度的V3和V4。但是,左轉車道上的V1和V2加速,說明它們是受保護的左轉彎,並且V0可以繼續右轉。因此,當其他道路車輛的運動屬性超出有限的傳感器範圍時,就需要社會感知功能。
現在考慮具有感知不確定性的多智能體環境自動駕駛汽車的行為規劃。除自動駕駛汽車之外,假定所有其他代理均為人。不明確地模擬人與人之間的交互,而要關注汽車與單個人之間的交互。那麼這裡感知不確定性就是:諸如遮擋和傳感器範圍有限之類的物理狀態不確定性,和諸如本地駕駛偏好之類的社會行為不確定性。
關鍵的觀察事實是,交通參與者不僅被看成機器人汽車需要覺察的動態障礙物,而且還應被視為分布式傳感器,其行為可以提供超出自動駕駛車傳感器範圍之外的其他信息。下面強調幾點:
i)分布式代理可以看作是發出行為信號的分布式傳感器。
Ii)假設每個人都是最佳的規劃者,並在人行為建模時考慮機器人汽車與人之間的交互作用。
iii)用人作為環境傳感器,為機器人汽車構建觀測模型,更新其估計的置信度。對於環境狀態和社會信息,設計不同的觀察模型。為了更新社會信息估計的置信度,機器人汽車需要從多個人收集常見行為。
iv)為了機器人汽車通過收集人類的行為信息來更新其置信度,機器人汽車用人類的成本函數,通過逆向強化學習(IRL)計算成本函數。在學習過程中,假設人類操作不是最佳的,並且不考慮感知不確定性。那麼,其目的是找到人類操作集UD的最大似然權重。這樣,基於最大熵原理,假設當軌跡有較低的成本時其指數性似然值更大。
由於置信度的概率性,用基於模型預測控制(MPC)的概率框架作為自動駕駛汽車的規劃者。在成本設計中考慮安全性,效率,舒適性和燃料消耗度,包括以下因素的懲罰權重:跟蹤錯誤、安全度、效率、加速和抖動等。為了保證規劃軌跡的可行性,引入以下約束:
運動學限制(採用自行車模型)、動態約束(包括車輛的曲率和加速度)和安全約束(包括靜態道路結構,如多邊形,和動態障礙物,如圓形。
下面是整個帶社會感知的行為規划算法偽代碼:
本文實驗設置一個具有傳感器遮擋的示例場景,驗證有社會感知的規劃框架有效性。如圖所示,自動駕駛車(紅色)和人類司機車(黃色)並排行駛,同時行人將要過馬路。實驗中,用保守的規劃,激進的規劃和提出的社會感知規劃來模擬這種交通場景。
下圖給出在行人過馬路時採用激進規劃(左圖)和建議的規劃(右圖)二者實驗的比較。
「Combining Planning and Deep Reinforcement Learning in Tactical Decision Making for Autonomous Driving」
由於環境的多樣性,傳感器信息的不確定性以及與其他車輛/行人的交互複雜性,自動駕駛的戰術決策(tactical decision)是一個挑戰性問題。 本文介紹了戰術決策的一般框架,以蒙特卡羅樹搜索和深度強化學習的形式將規劃和學習相結合。
該方法基於谷歌DeepMind的AlphaGo Zero算法,擴展到不用自駕(self-play)的連續狀態空間域。該框架適用於模擬環境中兩個不同的高速公路駕駛情況。
該框架下,參數θ的NN fθ用於指導MCTS(蒙特卡羅樹搜索)。其網絡輸入是狀態s,輸出是狀態的估計價值V(s,θ)和代表不同動作先驗概率p(s,θ)的向量。從給定狀態選擇採取的動作,實行的是如下所示算法1中的SELECTACTION函數。
此函數構造一個搜索樹,其中每個狀態動作節點存儲一組統計信息{N(s,a),Q(s,a),C(s,a)},其中N(s,a)是 節點的訪問次數,Q(s,a)是估計的狀態操作值,C(s,a)是子節點的集合。為了構建搜索樹,要進行n次迭代,其中每次迭代都從根節點s0開始,並持續時間步長t = 0,1,...,L,直到在步驟L到達葉節點sL。
算法2是生成訓練數據、優化NN參數的過程。首先,從模擬環境中獲得經驗。對於每個新情節(episode),對隨機初始狀態進行採樣,然後運行情節直到步驟Ns終止,根據算法1的SELECTACTION函數選擇執行的動作。終止後,針對每個步驟i = 0,... Ns -1,對情節期間收到的獎勵ri求和計算得到折現收益zi 如
將規劃和強化學習相結合的框架可以應用於自動駕駛。在研究中,研究了兩種高速駕駛案例的框架特性,如下圖所示。(a)表示高速公路連續行駛情況的初始狀態,而(b)表示當自車接近道路右側出口時的出口狀況。 自車是綠色卡車,而周圍車輛的顏色代表其相應駕駛員模型的激進水平。 紅色是激進的驅動程序,藍色是膽小的驅動程序,紫色的不同陰影表示介於兩者之間的級別。
然後,對這兩種情況進行駕駛員和物理學建模,既作生成模型,又用於模擬環境。智能駕駛員模型(IDM,Intelligent Driver Model)用於控制每輛車的縱向運動。最小化變道引起的總制動(MOBIL,Minimizing Overall Braking Induced by Lane changes)策略用於對周圍車輛的變道建模。
縱向動力學假定恆定的加速度,而橫向動力學假定恆定的橫向速度。兩個高速公路駕駛案例的決策問題被表述為部分可觀察的馬爾可夫決策過程(POMDP,partially observable Markov decision process),涉及狀態空間、動作空間、獎勵模型、狀態轉換模型、生成模型、觀察空間和模型,以及置信度狀態估計等。
NN估計採取不同行動的先驗概率以及當前狀態的價值。 在實現中,狀態s在通過神經網絡之前轉換為ξ,對所有狀態進行歸一化,即ξ∈[-1,1],而周圍車輛的位置和速度需要相對於自車表示。下圖說明了採用的NN體系結構:卷積和最大池化層在周圍不同車輛輸入之間具有平移不變性,這樣車輛的序號和數目變得無關緊要。
實驗中,在連續狀況,自車(長12.0 m的卡車)從隨機車道開始,在出口狀況,自車從最左側車道開始,初始速度為vx,0。周圍的車輛由IDM和MOBIL模型控制。模型參數的邊際分布均勻地分布在積極、正常和膽小的規劃參數之間,如下表所示。
下圖是需要規劃的情況示例。(a)顯示初始狀態,(b),(c)和(d)是三個代理15s之後的狀態。綠色卡車是自車。
如圖是為解決特定情況需要規劃相對較遠未來的示例。(a)顯示初始狀態,而(b),(c)和(d)顯示三個代理的退出狀態。其中點表示機動車輛在操縱過程中相對於其他車輛的位置,(b)和(c)顯示自車加速並超越較慢的車輛,而(d)顯示自車減速並停在同一輛車後面。
為了說明訓練有素的MCTS / NN代理行為,如圖顯示在高速公路出口情況下、在沒有其他車輛的時候和接近出口時,針對不同狀態採取的學習價值和行動。箭頭表示不同狀態採取的動作。 指向右側的箭頭對應於動作a1,而向下的箭頭對應於動作a4。
另外,代理的動作空間如下表所示。
「A Hierarchical Architecture for Sequential Decision-Making in Autonomous Driving using Deep Reinforcement Learning」
戰術決策是高級駕駛系統的關鍵特徵,其中的挑戰包括諸如不確定環境的複雜性和自主系統的可靠性等。本文開發了一種多模態架構,完成自我環境(ego surrounding)建模,並訓練深度強化學習(DRL)的代理,其在隨機高速公路駕駛場景保持一致性。
為此,將自我環境的佔用網格(occupancy grid)饋送到DRL代理獲得高級串行命令(即車道變換)發送到較低級別的控制器中。本文將自動駕駛問題劃分為多層控制架構,這樣能夠利用AI能力分別解決每一層,並獲得可接受的可靠性分(reliability score)。與端到端方法相比,這種架構能夠最終獲得更可靠的系統。下圖是該層方法的示意圖。
而如圖是ADAS分級結構和端到端方法的比較圖。
該方法採用佔用格(occupancy grid)作為自車周圍的環境模型。在現實世界中,這種實現方式比可用的端到端技術更可靠,因為後者無法執行從具有大量不確定性的最高層觀測到最低層執行器控制層的單映射變換。
這項工作主要用Q-學習的經典強化學習技術求解自動駕駛汽車高層決策的問題,在自己設計的Deep-Cars仿真環境中對問題實施ε-greedy算法求解,而動態規劃(DP)和強化學習(RL)是解決決策問題的算法,在與世界互動的過程中實現所需目標。
DP需要系統行為的模型,而RL是一種無模型的方法,可以在與環境交互的同時改善生成的策略。在數學上RL使用馬爾可夫決策過程(MDP)形式化離散隨機環境。RL中的狀態和動作通常是離散的,從而引出串行決策問題。獎勵提供了有關代理性能的信息指標,其目標是在與環境互動的過程中最大化累積的長期回報。
Q-學習通過學習動作價值函數Q(s,a)評估在特定狀態下採取某項動作的效果。在Q-學習中,構建內存表(memory table)Q [s,a]存儲狀態-動作所有可能組合的Q值。從當前狀態採樣一個動作,找出獎勵R和新狀態,從而從存儲表中獲取具有最大Q(s',a')的下一個動作a。在特定狀態下採取行動的Q-值計算為
由於計算量問題,所以用深度Q網絡(DQN)來近似動作價值函數Q(s,a)。
DQN創建並訓練了兩個網絡θ-和θ,一個用於檢索Q值,另一個包括訓練中的所有更新。最終,使θ-和θ同步以臨時固定Q價值的目標,同時可以防止目標函數突變現象發生。
損失函數的計算為
經驗重播(Experience Replay)用作一個緩衝區,從中進行微批量(mini-batch)採樣訓練深度神經網絡。利用經驗重播和目標網絡,模型的輸入和輸出變得更穩定地訓練,並且網絡表現地更像是監督學習算法。另外,本文應用雙DQN(DDQN)算法,其使用兩個Q網絡來對付過分樂觀(overoptimistic)的價值估計。
下面是DQN算法的偽代碼實現。
實驗中使用pygame設計環境,以此構建遊戲環境,稱為DeepCars環境,如圖所示。
遊戲能接收高級控制命令作為輸入向量,並給出遊戲狀態和獎勵作為輸出。為了能夠形式化MDP中的問題以採用RL算法,這裡狀態和動作是離散的。實際上,動作空間包括三個動作:A = {左,停留,右},模擬的目的是訓練代理,以避免與其他車輛發生碰撞。
「Design Space of Behavior Planning for Autonomous Driving」
本文探索了自動駕駛行為規劃的複雜設計空間。若能成功地解決行為規劃一個方面的設計選擇,就可以嚴格限制其他的方面。這項工作根據當前最好方法分解設計空間,並討論其中的權衡。作者提出了設計空間的三個軸,如圖所示。
人類司機控制動作是連續的,但駕駛過程還包含由道路連通性、標誌、信號、道路-用戶的交互等引起的離散事件。車輛駕駛必須遵循道路的平滑連續軌跡。因此,離散抽象和連續抽象的可能範圍,是考慮的設計空間第一軸。
下圖展示的是在第一個設計軸中關於用於自動駕駛運動規劃的四種環境表示形式,從最小到最大的抽象的演變,即原始數據、特徵表示、網格表示和潛在變量表示。
根據任務規劃器提供的一系列要遵循的道路,BP必須制定一系列離散的高層控制措施,在環境中導航。控制動作可能包括基本操作,如加速,減速和停止。這些動作還必須與實際路況一致,必須根據傳感器輸入在線地生成。因此,感知是行為規劃的重要組成部分,它自身具有許多挑戰,包括噪聲、遮擋和傳感器融合。
儘管存在不完善的假設和感知的問題,但BP必須對環境的動態性做出反應。無人駕駛車的本地規劃目的是設計一個從當前位置到目標位置的安全且平滑的軌跡,並避開障礙物、滿足舒適性要求和普遍地遵守運動動力學(kino-dynamic)約束條件等。BP選擇的抽象動作必須考慮自車和環境的實際狀態。BP可參數化選項或與LP通信。
如圖是環境表示的幾種方式:
車載傳感器和其他來源(相機,雷達,雷射雷達等),從原始傳感器數據中提取的一組特徵幾何路網作為連續特徵佔用網格潛在變量表示
駕駛問題的分解將高級離散決策(直線,左轉,停止,......)分配給行為規劃器(BP),而低級連續動作留下由本地規劃器(LP)制定。離散動作的選擇非常適合程序化來做,而連續動作要通過優化找到。這樣,設計空間考慮的第二個軸涉及運動規劃器的整體架構。
如圖是運動規劃器的總體架構。
下圖是第二設計軸中架構設計的選項。行為規劃架構分成運動規劃和預測兩部分。
運動規劃器,有兩種相互排斥的和BP集成的方法:一種是BP模塊在結構上與運動規劃器的其餘部分分開,另一種是BP可以部分或完全地和其他部分集成。
分開的方法可能導致計算冗餘;集成方法主要以端到端方式工作,這種方式依賴於大標籤數據。
給定狀態信息和過去的軌跡,預測任務是預測以下的一項或多個項:軌跡、低層運動單元(加速、減速和保持速度等)或意圖(讓路、變道和過馬路)等。
環境預測方法因環境表示、預測模型的設計、預測的抽象、先驗知識的合作度、預測範圍和對噪聲的魯棒性而異。預測方法包括三類:i)基於物理的模型,僅根據物理定律預測動態目標的運動; ii)基於機動的模型,該模型對預期的道路參與者機動進行建模並預測其執行; iii)交互覺察(interaction-aware)模型,該模型說明了環境中各種代理之間的相互依賴性。大多數公開的方法都是基於物理或機動的方法,僅在最近熱點轉移到基於交互的方法。
預測的體系結構與預測和行為規劃之間耦合的不同程度有關。首先要選擇的是,顯式還是隱式定義的預測模型。
顯式定義的預測模型會輸入狀態觀測,並對道路使用者的未來行為做出明確的預測。這些顯式預測模型可以是外部(External)或內部(internal)兩種方式。
顯式模型的外部預測與規划過程完全解耦,它們的輸出增強了饋入規劃器的環境表示;這種設計在預測和規劃之間提供了清晰的接口,有助於模塊化實現。注意大多數預測方法都屬於此類。
另一方面,顯式模型的內部預測是將預測與運動規划過程集成在一起,存於規劃器中。例如,具有部分可觀察的馬爾可夫決策過程(POMDP)模型的規劃器,將道路使用者的意圖視為規劃狀態空間內的潛在表示。在每個規劃步驟中,規劃器都會保持對道路參與者意圖的置信度,並會定期根據新的觀測結果進行更新。這樣可能會使軌跡更安全,特別在道路參與者響應目標車輛的行為而主動改變其意圖。
但是,目前在有許多道路參與者的場景中,預測的計算是棘手的。取而代之的是,BP體系結構用隱式定義的預測體系結構,這使預測和規劃之間的耦合度更高。
隱式預測模型並不將道路參與者的意圖表示為顯式特徵。其預測算法在學習駕駛策略的同時,可根據目標車輛與環境的相互作用學習預測道路參與者的行為。
考慮到BP和LP之間的整合和通信級別,以及對BP設計影響最大的預測方式,設計空間第三個也是最後一個軸,是決策邏輯的表示。底層邏輯表示用於做出高級決策,如圖所示。
規劃器的決策邏輯可分為兩個範式:(1)通過一組明確編程的工作規則表示的邏輯, 2)依賴那些參數作為先驗知識的數學模型表示的邏輯。雖然學習邏輯(learning-logic)模型能夠在各種情況下進行概括,但它們不可解釋,很難確保安全。另一方面,編程邏輯(programmed logic)需要大量的人力工作,並且要服從傳統的軟體工程原理。
可以使用兩個完全不同的編程範例來實現編程邏輯系統:命令式(imperative)和聲明式(declarative)。命令式系統包含了一系列操作,這些操作表達給定的程序從一種狀態轉移到另一種狀態的控制流。另一方面,聲明式系統無需特意去描述控制流,而是能夠表達底層邏輯。
由於缺乏嚴格的系統流程,因此聲明式系統更難以更改,因為它具有較少的相互依賴關係,也更難以實現。另一方面,命令式系統需要大量規則和轉換,才能完全處理複雜的駕駛情況,結果就是它很難擴展到更複雜的駕駛任務。
聲明式系統有兩種內部邏輯的表示方式: i)專家系統通過一組規則評估一個世界狀態來獲得決策,並通過推理將它們組合起來,獲得最終的行為決策。ii)優化系統將駕駛行為封裝為一組數學變量,相對最佳行為進行優化。
學習邏輯系統的決策可以細分下去,根據學習是來自專家示例還是來自與逼近現實世界的模擬環境的交互來定。簡單的端到端表示學習法已被證明,能成功地在道路和高速公路上執行基本操作。在實踐中,儘管需要大量標註的駕駛數據,但「從示例中學習(learning from example)」已顯示出更強大的功能。
使用示例的另一類學習算法是從演示中學習(learning from demonstrations)。行為規劃系統可以用模仿學習來複製(copy)或者克隆(clone)參考駕駛員的行為。它也可以使用人類演示示例來構建獎勵函數,該獎勵函數可用於駕駛行為的逆強化學習(IRL)。另一方面,「從交互中學習(learning from interaction)」可以從更多樣化的駕駛情況(甚至潛在的危險情況)中獲取知識。
最後,同時用「從示例中學習」和「從交互中學習」的方法具有優勢,例如魯棒性和同時滿足多個目標函數。
「Decision making in dynamic and interactive environments based on cognitive hierarchy theory: Formulation, solution, and application to autonomous driving 」
本文描述了基於認知分層理論(cognitive hierarchy theory)在動態和交互環境中的自主決策(autonomous decision making)框架。它把自代理(ego agent)及其操作環境之間交互建模為雙人的動態遊戲,並整合認知行為模型(cognitive behavioral models)、貝葉斯推理和滾動(receding/rolling-horizon)最優控制,從而定義自我代理在動態演化中的決策策略(decision strategy)。
特別是,在規劃範圍內可能會強制實施嚴格的約束條件,以滿足安全的要求。交互式決策過程被表述為受約束的部分可觀察的馬爾可夫決策過程(POMDP)。
這裡「認知分層結構(CH)」框架取代了「 k-層」框架,在CH框架中,以σ-層(σ= 0,···,k)決策的混合模型對CH-k決策進行建模和優化,戰略性響應交互的環境。
博弈論是用於建模智能代理之間戰略交互的有用工具。在許多實驗研究中,與基於均衡的理論(equilibrium-based theories)相比,因為認知分層理論(CHT)提高了預測人類行為的準確性,引起了博弈論者的關注。CHT通過基於迭代合理性的水平(levels of iterated rationalizability)來表徵人類行為,從而描述了戰略遊戲中的人類思維過程。
特別是,與許多基於均衡理論的無界/完美理性假設(unbounded/perfect rationality)相比,CHT假設決策者具有有限理性(bounded rationality)。當自代理對其操作環境有充分的了解時,可以預先指定級別-σ模型的混合比率。在不確定的環境中運行時,可將有關交互環境的認知水平的推理納入決策過程。
首先,考慮在動態和交互式環境中運行的智能代理的決策過程。自代理與環境之間的交互建模為一個兩人動態遊戲,表示為6元組<P,X,U,T,R,C>,其中P = {1,2}代表兩個人,其中1表示自代理,2表示環境; X是狀態的有限集合,其中xt∈X表示在離散時刻t代理-環境系統的狀態; U = U1×U2是一個有限的動作集合,其中U1表示自代理的動作集合,U2表示環境的動作集合; T表示動作對(u1t,u2t)∈U而導致的狀態xt→xt + 1的轉移,特別地,T由以下動態模型定義,
R = {R1,R2}代表決策目標的兩個參與者的獎勵函數,即
C = {Xt}t∈N, XtX是一組「安全」狀態,代表了自代理決策的硬約束(hard constraints)。
自代理基於滾動優化做出決策,即
相反,一種方法是考慮最壞情況,上面的優化問題被視為
但是,由於它假定是一個對抗性參與者2,而不是那個追求自己目標並且不一定要對抗自代理的理性參與者2,該優化結果可能會造成自代理過於保守的決策。
因此,需要尋求基於認知分層理論(CHT)的一種替代解決方案。這裡有兩個框架作為選項:k-層框架和認知分層(CH)框架。
在k-層框架中,假定戰略遊戲中的每個玩家基於對其他玩家可能採取行動的有限深度的推理來做出決策。推理層次結構始於某種稱為0-層的非戰略行為模型。然後, k-層的玩家k = 1、2,····,假設其他所有玩家均為(k 1)層,並以此為基礎預測其他玩家的行動並做出自己的決策。如果其他參與者執行σ < k 1的σ-層決策,則k -層決策可能變差。
CT框架在有界的k認知層上表徵每個玩家的行為方面與k-層框架類似。CH框架的獨特是,在眾玩家某種比例適合每種原型(archetype)的假設條件下,猜測玩家可以行動。假定其他每個玩家σ-層都滿足σ<k,CH-k玩家相應於其他玩家的層置信度來優化自己的決策。這個特點使CH-k玩家能夠對所有σ<k的σ-層決策做出最佳響應,表現「更聰明」,只要它對其他玩家的層有正確的置信度。
策略πi,i∈P是從狀態X到動作Ui的隨機映射。任意k = 0、1,...,要定義環境的k-層模型,首先要定義自代理的0-層模型(由策略π1,0定義)和環境的0-層模型(由策略π2,0定義)。基於「 softmax決策規則」構造環境π2,k,k≥1的k-層模型,該模型捕獲了決策的次優性和可變性,如下所示:
而各自對應的狀態-行動對Q-函數定義為
構造了k = 0,1,···,kmax 的環境k-層模型π2,k之後,定義代理-環境系統x-t = [xt, σ],其中σ ∈K = {0,1,···,kmax}表示環境的實際認知層,並假定自我代理不知道這一點。接著,考慮以下代理-環境系統的增強動態模型,
環境行為u2t視為隨機幹擾。然後,考慮自代理的以下決策過程
現在考慮隨機的決策規則,在決策空間(U1)N定義的優化問題轉換為在概率空間定義的優化問題,如下所示:首先,將γ1τ| t,τ= 0,···,N -1定義為集合U1上的概率分布,根據該概率分布選擇預測動作u1τ| t;然後,將其重新表述為以下優化問題:
該問題稱為具有時間聯合機會約束(time-joint chance constraint)的POMDP,其中部分可觀測性來自隱態σ∈K的不可觀測性。
實驗中將基於認知分層理論的決策框架應用於各種交通場景中的自動駕駛自車(ego vehicle),同時與人類司機駕駛的其他車輛進行交互。交通場景包括四路交叉口場景,高速公路超車場景和高速公路強行合併場景。
在k-層模型中考慮L-1和L-2模型。 不同的人類駕駛員可能具有不同的認知層,自動駕駛的自車不知道與之交互的人類駕駛員特定層σ,但根據其觀測到的信息推斷σ的大小。如果t = 0時沒有任何信息,則將自動駕駛車在人類駕駛車的L-1/-2模型的置信度初始化為0.5。用離散時間模型表示車輛縱向運動學,執行以下操作:
而變道(lane change)建模為瞬間事件,即一次完成。
如下圖是交叉路口場景實驗。 (a-1)和(a-2)顯示模擬自動駕駛自車(藍色汽車)與L-1型人類駕駛車(紅色汽車)相互作用的兩個後續步驟; (b-1)和(b-2)顯示了與L-2型人類駕駛車互動的過程。
當與L-0模型的L-1型人類駕駛車交互時,它代表謹慎/保守的駕駛員,自動駕駛的自車決定首先駛過交叉路口。 當與L-2型人類駕駛車互動(激進的,基於L-0模型)時,自動駕駛自車會對人類駕駛車讓路。自動駕駛車通過不同的方式觀察人類駕駛員的行為來了解駕駛員的認知水平,然後預測駕駛員的未來行為並做出最佳反應,從而不同的方式對兩個駕駛員做出反應。
如圖是超車交通情況。 (a-1)至(a-4)示出模擬的自動駕駛自車(藍色汽車)與L-1人類駕駛車(紅色汽車)相互作用的四個後續步驟; (b-1)至(b-4)示出與L-2人類駕駛車交互的情況。
在仿真中,人類駕駛車的最大速度小於自動駕駛自車的最大速度,以確保超車的可能性。 與L-1人類駕駛互動時,自動駕駛自車會相對較快地完成超車,如(a-2)所示,L-1人類駕駛員會緩慢駕駛讓自車駛入。與L-2駕駛員交互時,自動駕駛的自車需要較長的時間才能通過超車道(passing lane),然後返回原行駛車道(traveling lane)。
最後一個實驗是並道的場景。 (a-1)至(a-4)顯示自車(藍色汽車)與L-1型人類駕駛車(紅色汽車)交互的四個後續步驟; (b-1)至(b-4)示出了自車與L-2型人類駕駛車輛交互的情況。
「Generic Tracking and Probabilistic Prediction Framework and Its Application in Autonomous Driving」
準確跟蹤和預測周圍目標的行為是智能系統(如自動駕駛車輛)實現安全、高質量決策和運動規劃的關鍵先決條件。然而,由於目標數量波動和遮擋存在,多目標跟蹤仍然存在挑戰。
這裡提出一種約束的混合串行蒙特卡羅(constrained mixture sequential Monte Carlo,CMSMC)方法,將混合模型表示結合到估計的後驗分布中實現多模態。在統一框架內,它可以同時跟蹤多個目標而無需對觀察值和跟蹤目標之間做數據關聯。這個框架可以將任意預測模型作為CMSMC的隱式提議分布(implicit proposal distribution)。
一個例子是基於學習的分層時間序列預測模型,由行為識別模塊和狀態演化模塊組成。兩個模塊通用且靈活,在一類時間序列預測問題應用時可以把行為分成不同級別。它不僅關注單實體(single entity)的預測軌跡,而且共同預測交互實體(interactive entities)的連續運動。
這裡忽略多目標跟蹤算法,重點介紹一下本文的預測算法:提出的是一個針對時間序列問題的分層預測模型,該模型由兩個模塊組成,即識別模塊和演化模塊。識別模塊旨在解決概率分類問題,而演化模塊旨在將當前狀態傳播到未來。
下圖是分層的時間序列預測模型圖(hierarchical time-series prediction model,HTSPM)。 (a)識別模塊:深度馬爾可夫模型(DHMM);(b-1)演化模塊:外部信息直接影響狀態;(b-2)演化模塊:外部信息和行為模式通過一個動作項(輸入)間接影響狀態。黑色實心箭頭表示一階馬爾可夫假設(first-order Markov assumption),紅色虛線表示較高階假設。
下面是HTSPM算法的偽代碼實現細節。
關於預測模型的應用,如圖給出一個駕駛行為的分層表示。在日常駕駛情況下,相應地可以通過三種常見行為模型到達目的地:車道保持、變道和轉彎。 這些行為也可以分解為更主要的動作,例如速度調節和轉向,這些動作本身也有構成的元素。每個行為層對應於一個層,並且某個行為層的每個行為類對應於一個HMM。
具體跟蹤和預測的算法實驗就此略過。
從這些文章的介紹,我們可以看到目前作為規劃中最有挑戰的行為規劃和決策(預測模塊也牽涉到)大概的一些研究熱點,模擬學習和逆強化學習是比較普遍的兩個常用途徑,但各有面臨的不同困難。這個領域面臨的不確定性比感知模塊的不確定性更難以建模。其中一些細節設計到離散和連續空間的考慮、和其他駕駛的交互方式、還有計算複雜度和空間劃分的均衡問題。強化學習的調參比CNN的調參難度也不會小,本身谷歌的NAS(網絡架構搜索)也是基於強化學習的。數據也是一個大問題,訓練的結果和採用的數據種類、場景和形式緊密相關。