北航與第四範式團隊KDD Cup RL Track冠軍方案:解密共享出行場景中的優化問題

2021-02-07 機器之心
近日,全球頂級數據挖掘競賽 KDD Cup 2020 已經正式畫上圓滿句號,KDD Cup 2020 RL Track 比賽結果也隨之出爐,北京航空航天大學軟體開發環境國家重點實驗室童詠昕教授研究組與第四範式羅遠飛組成的聯合團隊脫穎而出,斬獲 KDD Cup 2020 強化學習挑戰賽冠軍。

據主辦方滴滴介紹,本次註冊隊伍達到了 1007 支,其中不乏普渡大學、南京大學、中國科學技術大學、中山大學、東南大學等國際頂尖高等院校以及電商巨頭京東、出行巨頭 Lyft、 日本通信巨頭 NTT DOCOMO 的身影。作為全球數據挖掘領域最有影響力的賽事,KDD Cup 比賽由 ACM 協會的國際頂級會議 SIGKDD 舉辦,自 1997 年以來每年舉辦一次。KDD Cup 多年來一直保持著很高的工業界參與度以及對解決實際問題的敏感度。與去年 KDD Cup 強化學習挑戰賽的分類問題以及過往多應用在體育競技類比賽性質不同,今年的強化學習賽道(RL Track)聚焦於更加真實且問題極為複雜的業務場景,旨在解決共享出行領域優化難題。在題目難度進一步增加的同時,也將強化學習的價值進一步放大。如今,按需出行(MoD)或網約車平臺已成為大眾不可或缺的出行方式,對於網約車平臺來說,高效率的按需出行系統可以為司機和乘客提供更好的用戶體驗:司機可以通過減少空轉時間獲得更高的收入,乘客等待時間會更短,滿意度也會更高。因此,如何更有效地利用空置車輛,更快、更高效地匹配乘客需求、提高司機收入成為了網約車平臺優化指標當中的重中之重。按需出行系統的效率取決於時空中供需分布的協調程度。如果想要調整供給分布來更好地協調需求,從而優化運營效率,有兩個重要的問題:車輛調度(vehicle repositioning)和訂單分配(order dispatching)。訂單分配負責把空閒的車輛分配給等待中的出行訂單,並把乘客(和司機)運輸到訂單終點。車輛調度是一種更主動的策略,可以把閒置的車輛部署到預計未來會產生需求的特定位置。因此,參賽者需要同時解決按需出行平臺上訂單分配(order dispatching)和車輛調度(vehicle repositioning)問題,通過主辦方提供的真實場景數據和模擬器,基於強化學習設計一個智能匹配與調度算法,以最大化平臺所有司機的平均日收入。

真實場景,數據量大:歷史數據包含西南某省會城市一個月時間內幾百個 G 的數據記錄;線上亦基於若干天的真實數據來評測;

因素多:影響司機收益的因素很多,如接駕距離、天氣、路況信息、出行時間等,需要考慮複雜的環境因素;

實時性:在一天內,算法每 2 秒被調用一次,必須 2 秒內做出分配,且訂單和司機信息每次不同,不能預分配;

調參難:官方並未提供模擬器,且已有數據不足以在線下搭建出高質量的模擬器,需要開發的算法具有較強的魯棒性。

為了最大化平臺上所有司機日均收入,在計算每個訂單的收益時,採用基於強化學習的方法,不僅能考慮當前時刻的收入,還能兼顧未來可能的收益。同時,結合剪枝與 C++ 實現的高效二分圖匹配算法,能夠在 2 秒的時限內,及時找到合適的訂單分配方案,從而取得了更好的效果。

代碼地址:https://github.com/maybeluo/KDDCup2020-RL-1st-solution本賽題的優化目標是最大化平臺上司機一天內的平均總收益,因此在派單時,不僅要考慮最大化當前時間窗的收益,還必須考慮未來的可能收益。同時,當前的訂單分配會影響車輛的位置和收益,對未來產生影響,是一個序列決策問題,因此考慮通過強化學習解決。此情景下,環境 (Environment) 包括訂單、司機車輛信息位置等,而參賽者需要定義智能體 (Agent)的學習和預測策略,以最大化司機的收益。本問題中司機和車輛一一對應,下文中如未特殊強調,車輛和司機含義一般可以互換。狀態 (State)、動作(Action) 和獎勵 (Reward) 設計如下:聯合團隊使用車輛的地理坐標經過離散化後對應的 ID,來表示車輛的狀態,而不考慮時間因素。具體的,團隊同時使用了多種離散化策略,使得每個地理坐標,對應多個不同粒度的狀態,如主辦方提供的六邊形格子劃分策略,還可以是多種不同大小的四邊形等。如下圖所示,對於圖中的坐標點(紅色圓點),離散化後,可以同時採用六邊形、不同大小的四邊形來標識該點對應的狀態。

智能體執行派單程序後,會生成司機和訂單的匹配列表。在不考慮取消訂單的情況下,成功匹配的司機將會進入服務 (serving) 狀態: 司機會到達指定上車點,接到乘客,並運送到指定下車點,拿到相應的獎勵。而未能分配到訂單的司機,將會閒置(idle),不能拿到任何收益。每次派單成功後,司機會拿到相應訂單的收益,作為本次動作的獎勵。本次比賽的目標,即是最大化所有司機的平均收益。每次智能體被調用時,將接收到當前所有的候選訂單信息,並在 2 秒內做出司機和乘客的匹配。候選信息列表是候選訂單的集合,每個候選訂單主要包含如下信息:

oorder_id 和 driver_id: 訂單 ID 和司機 ID,用來唯一標識候選訂單和司機;

odriver_location: 司機在當前時刻所處的地理位置,本次比賽中地理位置信息均採用經緯度對來表示;該信息信息經過離散化後,得到訂單的起始狀態標識;

oorder_finish_location:訂單結束位置,即訂單的目的地;該信息經過離散化後,得到訂單的終點狀態標識;

oduration:訂單的預估時長;

oreward:訂單帶來的收益。

此外,還有當前時刻信息、訂單起始位置(order_start_location)、接駕距離(司機和乘客的距離 order_driver_distance)、預估接駕時長(pick_up_eta)等,可以根據此類信息推斷訂單取消概率。本方案整體策略為通過時序差分算法(Temporal Difference)學習狀態值,並通過二分圖匹配算法最大化收益。具體的,智能體接受到候選訂單列表後,將依次執行以下三個步驟:

1) 構圖:通過候選訂單信息,將司機和乘客建模成二分圖;並根據起止點對應的狀態,計算邊權;

2) 匹配:通過二分圖匹配算法,將司機和乘客匹配,並派單;

3) 更新:根據匹配結果,通過時序差分算法的學習規則,更新涉及到的狀態對應的值。


下面詳細介紹每個步驟。

本文將訂單 ID 和司機 ID 作為圖的頂點,並根據候選訂單信息,連接相應的訂單和司機,得到對應的圖。因為訂單之間、司機之間均不存在連接關係,因此該圖是二分圖。另外,為了保證更快的得到匹配效果,加速後續匹配算法,將二分圖按如下策略剪枝:對於每個訂單,只保留接駕距離最小 K 個司機對應的邊;在比賽中,K 取 11。不妨將司機位置(driver_location)和訂單終點(order_finish_location)對應的狀態分別記為 S 和 S^',其對應的狀態值分別為 V(S) 和 V(S^') ,則二分圖中的邊權 w 計算方式為:

其中,R 為訂單對應的收益,t 為離散化後的訂單時長,為折扣因子, p 為訂單的取消概率。訂單取消概率和接駕距離、接駕時長等有關,可以通過對官方提供的歷史數據中訂單取消概率建模,得到對應的訂單取消概率預測模型,以便線上推斷每個訂單的取消概率。構圖完成後,得到剪枝後的二分圖以及每條邊的權重,可以直接利用匈牙利算法進行匹配。在實際使用時,團隊發現 Scipy 提供的對應算法接口  (https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linear_sum_assignment.html) 效率較低,導致超時(不能在 2 秒的時間窗內做出匹配)。如果直接使用貪心算法(完全貪心或- greedy)分配訂單,則效果不佳。另外,司機和乘客數量一般不等,導致圖中二分圖頂點數目不均衡。綜合以上因素,我們使用 C++ 實現了高效的匈牙利算法(hungarian algorithm),並編譯成對應的 so 文件,通過 Python 直接調用,以解決容易超時的問題。當訂單分配完成後,需要根據分配的結果更新對應的狀態值。因官方未提供比賽環境對應的模擬器,不能線下調參,因此選擇從簡單模型入手。我們選取了單步在線策略更新的 SARSA 算法(state–action–reward–state–action)。對於每個訂單的起點和終點,它們均會同時激活多個不同粒度的狀態表示,記每個坐標位置離散化後的狀態個數為 k。

計算得到狀態值後,對起點所對應的各狀態,按照如下公式更新:

其中,為學習率。聯合團隊也曾嘗試基於深度強化學習的狀態學習和更新方法,但效果不佳;嘗試基於動態規劃、時序差分等方法,通過歷史數據在線下學習對應狀態值,作為線上狀態的初值,未能取得收益。也嘗試了一系列方法,以降低時序差分單步更新時可能引入的噪音,仍未能取得更好的效果。因此,針對真實場景下的大規模訂單實時分配問題,將強化學習和二分圖匹配算法相結合,在最大化當前收益的同時,能夠有效兼顧未來可能的收益。相比基線模型或其他選手方案,本方案能夠取得更大的收益。

Amazon SageMaker 是一項完全託管的服務,可以幫助開發人員和數據科學家快速構建、訓練和部署機器學習 模型。SageMaker完全消除了機器學習過程中每個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。


現在,企業開發者可以免費領取1000元服務抵扣券,輕鬆上手Amazon SageMaker,快速體驗5個人工智慧應用實例。



© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

相關焦點

  • 第四範式團隊KDD Cup世界冠軍方案詳解:解密共享出行場景中的優化問題
    據主辦方滴滴介紹,本次註冊隊伍達到了 1007 支,其中不乏普渡大學、南京大學、中國科學技術大學、中山大學、東南大學等國際頂尖高等院校以及電商巨頭京東、出行巨頭 Lyft、 日本通信巨頭 NTT DOCOMO 的身影。作為全球數據挖掘領域最有影響力的賽事,KDD Cup 比賽由 ACM 協會的國際頂級會議 SIGKDD 舉辦,自 1997 年以來每年舉辦一次。
  • KDD CUP 2020 大獎出爐,中國團隊包攬全部冠亞軍!
    作者 | 陳大鑫、青暮經過上千個國際頂級團隊幾個月的激烈角逐,KDD CUP 2020 大賽結果終於在其官網上公布,其中,來自中國的團隊如國立臺灣大學、美團點評、北航、第四範式、東南大學、上海交大、國科大、清華大學包攬全部獎項的冠亞軍!
  • 【乾貨】2010-2017最全KDD CUP賽題回顧及數據集下載
    >>> 大賽官網介紹http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro>>>> 大賽數據集http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data
  • KDD CUP 2019 實錄:野心盡露的數據挖掘「奧林匹克」
    而賽事結果也讓人感到驚喜——三個賽道的冠軍悉數被華人面孔拿下。其中 1200 支的活躍隊伍(總數超過 5000 人)提交了約 17000 份解決方案。與這些「熱鬧」的數據相對的是,大會現場則要「冷靜」很多。也許是宣傳力度有所欠缺,再加上部分獲勝隊伍美籤未能成功批下,所以當 AI 開發者記者今早來到大會現場時,人數要比想像中的少一些。
  • 工學院研究生蔡恆興率領隊伍「一個師的兵力」在KDD Cup 2017國際競賽中取得優異成績
    中山大學工學院2015級研究生蔡恆興(領隊)、教師鍾任新副教授(隊員)、2015級研究生羅佳晨(隊員),與來自北航、西南交大、中科院、國防科大、北大等其它高校及機構的隊員組隊「一個師的兵力」,參加了KDD Cup 2017賽題《Highway Tollgates TrafficFlow Prediction: Travel Time & Traffic Volume Prediction》中兩個任務的角逐
  • 祝賀東南大學交通學院劉志遠教授團隊劉洋博士、呂呈碩士喜獲KDD CUP兩項大獎
    團隊成員受邀前往KDD會議現場領獎並展示獲獎方案,相關工作被收錄至KDD CUP論文集。ACM SIGKDD Conference on Knowledge Discovery and Data Mining(簡稱KDD)是國際數據挖掘領域的最高級別的學術會議[2]。
  • 中國企業包攬主辦權,獎金池 12 萬美金,KDD Cup 2020 開賽
    KDD Cup 2020 將延續 2019 年的三個賽道:常規機器學習賽道、自動化機器學習賽道、強化學習賽道,阿里、Biendata 分別主辦了常規機器學習賽道的賽道一和賽道二,第四範式、滴滴則分別主辦了後兩個賽道,而第四範式也是連續第二年主辦自動化機器學習賽道。所有的比賽都將在 3 月-4 月進行,獎金池更是達到了 12 萬美金。
  • [KDD Cup 2020(共6道題)]KDD Cup 2020(賽題更新)
    給定一個自然語言形式的搜索查詢,參與的團隊需要實現一個模型,根據它們的圖像特徵對候選產品集合進行排序。這些查詢大部分是名詞短語,用於搜索具有特定特徵的產品。候選產品的圖片由展示產品特徵的賣家提供。與查詢最相關的候選產品被視為查詢的ground truth,參與模型期望查詢的ground truth排在最前面。
  • 「數據挖掘世界盃」KDD Cup不取消!全球頂尖AI團隊必爭之地!
    全球頂尖AI團隊必爭之地!   「數據挖掘世界盃」KDD Cup不取消!全球頂尖AI團隊必爭之地!近日,國際數據挖掘頂級會議 KDD 正式公布了 KDD Cup 2020 競賽賽題,自動機器學習(AutoML)賽道由第四範式主辦,ChaLearn、史丹福大學和谷歌(Google)協辦。  KDD Cup由美國計算機協會知識發現與數據挖掘專委會(ACM SIGKDD)發起,被稱為數據挖掘的世界盃,是該領域水平最高、影響力最大的頂級賽事。
  • 中國軍團稱霸KDD:華人博士獲最佳論文,清華北大華為等榜上有名
    第一個問題此前有研究解決了,是一個S形函數,隨著廣告重複次數增加,給路人留下的印象越來越深刻,之後簡單重複就沒用了,再多就只有副作用了。而第二個問題,廣告牌分布的問題需要用算法解決。研究團隊發現直接用貪心算法是不行的,於是提出了基於切線的算法計算子模塊函數,為了提高效率,設計了θ終止方法和漸進式上限估計方法進行優化。
  • 如何斬獲KDD Cup兩冠一季?美團廣告團隊公開解決方案
    推薦系統面臨的一個嚴峻挑戰是公平性(Fairness)問題,即如果機器學習系統配備了短期目標(例如短期的點擊、交易),單純朝短期目標進行優化將會導致嚴重的「馬太效應」,熱門商品容易受到更多的關注,冷門商品愈發被遺忘,從而造成系統中的流行度偏差。
  • 第四範式專欄 | 機器學習: 如何成為ML-ready的公司?
    我們的解決方案是提供數據子集而不是整個資料庫,並將其匿名化。對於擁有數據科學家的公司,在不同的部門之間共享數據也是共同的管理挑戰。過度管制的數據策略,或者僅僅在各部門囤積數據,會大大減緩數據分析的進程。這就是為什麼要在更高層面給數據科學家和技術公司權限的原因。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    論文連結:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089這篇論文將深度學習和強化學習結合(DRL),並證明了其在眾多序列決策問題中動態建模的能力。為了提高模型的透明度,已經有研究提出了針對 DRL 的各種解釋方法。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎,清華入選論文實力霸榜
    論文連結:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089 這篇論文將深度學習和強化學習結合(DRL),並證明了其在眾多序列決策問題中動態建模的能力但是,這些 DRL 解釋方法隱式地假定它們是在可靠和安全的環境中執行的,但在實際應用中並非如此。維吉尼亞大學的研究團隊調查了一些 DRL 解釋方法在惡意環境中的漏洞,他們提出了第一個針對 DRL 解釋的對抗性攻擊的研究,提出了一個優化框架來解決所研究的對抗性攻擊問題。 論文第一作者Mengdi Huai 是維吉尼亞大學計算機系在讀博士生,導師為Aidong Zhang。
  • 第四範式率先發布XGBoost++,輕鬆切換AI異構算力
    XGBoost++和pyGDBT的共同點在於,以往的AI開發中想要使用異構加速或實現高維離散場景的計算需要,必須具備深厚的AI技術基礎,而這兩款工具的易用程度讓數據科學家、數據分析師、普通AI開發者即可輕鬆上手。這也讓第四範式離「AI for Everyone」的願景更進一步。
  • 技術衝擊波 | 奪冠神器「深蘭自研Auto ML」在KDD Cup 2019再下一城
    值得一提的是,作為KDD Cup歷史上的首次AutoML挑戰賽,冠軍就被來自中國的人工智慧企業深蘭科技收入囊中。由第四範式、ChaLearn和微軟聯合舉辦此次挑戰賽,設置了「史上」難度最高的比賽項目——專注於時序相關數據的自動機器學習,參賽隊伍達到800多支,是近幾次AutoML競賽中參賽隊伍最多的一次。
  • 英特爾和第四範式聯合研究成果入選國際頂會VLDB
    英特爾與第四範式此次合作錄取的論文以解決在線預估系統的業務需求和痛點為目的,針對如何設計底層資料庫組件來高效支撐萬億維稀疏特徵在線預估系統,以及如何基於英特爾®傲騰™持久內存進一步解決業務和系統設計的痛點等兩方面進行創新性設計和全面優化。如今,越來越多的企業意識到了AI在企業經營、決策中的重要作用,AI迎來了落地應用爆發期。
  • 聯邦學習最新醫療場景發布:楊強團隊與劉琦團隊合作打破藥物數據...
    生命科學領域嘗試通過經典的加密計算手段來進行生物和藥物數據的共享和建模,然而隨著世界各國提出了一系列法律法規(如歐盟的GDPR,美國的CCPA)來保護數據的私密性和安全性,要求數據不能出本地或跨域,傳統數據共享方法將面臨新的法律法規的挑戰。聯邦學習是近年提出的一種新的合法連結數據孤島進行數據共享計算的協作範式,由谷歌和楊強教授團隊分別在to C和to B場景率先提出。
  • 第四範式塗威威:AutoML 回顧與展望
    人類專家會從以往處理過的機器學習問題中積累經驗,並將此推廣到之後的機器學習問題中。動態環境的自動機器學習動態環境下的自動機器學習研究試圖解決的是數據不斷積累、概念發生漂移時的問題。基於分類方法的隨機坐標收縮方法 (RAndomCOordinate Shrinking, RACOS) 和基於隨機坐標收縮分類模型來進行基於模型的零階優化,有效地解決了貝葉斯優化方法的計算複雜度高、參數類型受限的問題,它一般採用最簡單的 ε-greedy 方法來進行 E&E。隨機坐標收縮方法被證明在高維度場景下顯著優於基於高斯過程的貝葉斯優化方法。
  • 36氪專訪|第四範式陳雨強:AI落地難?95%的問題出在數據形式上
    誰是第四範式?在人工智慧行業之外,第四範式的面目尚有些模糊。特別是在「視覺識別」幾乎成為 AI 代名詞的當下,人們驚嘆於商湯、曠視等「AI 四小龍」超強的融資能力,也多少聽聞 AI 在攝像頭、晶片、機器人等場景的落地。