滴滴KDD 2019 論文詳解:基於深度價值網絡的多司機智能派單模型

2021-01-10 雷鋒網

世界數據挖掘領域頂級學術會議KDD2019繼續在美國阿拉斯加州安克雷奇市舉行。本次KDD大會首次採用雙盲評審制,共吸引了全球範圍內約1879篇論文投遞。其中,Applied Data Science track收到約 700 篇論文投稿,最終45篇被接收為Oral論文,100篇被接收為Poster論文;而Research track 共收到了 1179 篇投稿,最終111篇被接收為Oral論文,63篇被接收為Poster論文。

今年,滴滴共有三篇Oral論文入選KDD2019,研究內容涵蓋基於深度學習方法自動化地生成工單摘要、基於深度強化學習與半馬爾科夫決策過程進行智能派單及模仿學習和GAN在環境重構的探索。

本文是對滴滴Oral論文《A Deep Value-networkBased Approach for Multi-Driver Order Dispatching》的詳細解讀。滴滴AI Labs技術團隊在KDD2018 Oral 論文《Large‑Scale Order Dispatch in On‑DemandRide‑Hailing Platforms: A Learning and Planning Approach》的基礎上,新提出了一種新的基於深度強化學習與半馬爾科夫決策過程的智能派單應用,在同時考慮時間與空間的長期優化目標的基礎上利用深度神經網絡進行更準確有效的價值估計。通過系統的離線模擬實驗以及在滴滴平臺的在線AB實驗證明,這種基於深度強化學習的派單算法相比現有最好的方法能進一步顯著提昇平臺各項效率及用戶體驗。

研究背景

當下滴滴網約車採用的全局最優的派單模式,是通過搜索1.5-2秒內所有可能的司機乘客匹配,由算法綜合考慮接駕距離、道路擁堵情況等因素,自動將訂單匹配給最合適的司機接單,讓全局乘客接駕時間最短。本文所述的算法也是在這一派單模式基礎下的改進。

司機在不同時間地點會有不同的未來收益期望 (「熱區」vs」冷區」)。準確地估計這樣的收益 (或者價值) 期望對於提升派單效率有重要的意義。下面兩個簡單的例子可以更形象的說明這一點。

第一個例子是供給受限的情況,這裡有一個司機,兩個乘客A跟B分別前往」熱區」和」冷區」,假設其他影響派單的因素完全一樣 (接駕距離、安全合規、合規司機收入傾斜、服務分等)。那麼可以認為把乘客A派給司機是更優的選擇 (實際情況更為複雜,比如在供需不平衡的情況下引入排隊機制),因為司機在完成A訂單後可以更好的滿足」熱區」運力不足的需求,從而在整體上減少司機的空車時間,達到調節供需的作用;

第二個例子是需求受限的情況。假設這裡有一個乘客,司機A跟B分別在」冷區」和」熱區」,而其他影響派單的因素完全一樣,那麼在這個情況下,可以認為把訂單派給A會是更好的選擇,因為B在」熱區」期望上能比A更快地接到下一單,這樣長期來看總體上最小化了A跟B的空車時間。

深度價值網絡的強化學習和匹配規劃 (Learning andPlanning)

在上面兩個例子中說明,不管是供給端還是需求端受限,我們都可以通過在派單決策中系統的考慮冷」熱區」之間關係來提升系統效率。下面我們從數學上對派單問題進行建模並給出冷」熱區」在強化學習框架下的定義。

派單可以看成一個系列決策問題,我們將其建模為帶有時間延展性的馬爾科夫決策過程,也稱為Semi-MDP。與標準MDP類似,司機從一個狀態 (時間、地點、情景式特徵) 出發,通過接單或者空車遊走的動作 (option),轉移到下一個狀態,並獲得相應獎勵 (對於接單的動作是訂單的金額,空車遊走或者上下線則為0)。這裡與標準MDP最大的不同在於動作帶有時間延展性,不同動作時間跨度不同,這一點很重要,會體現在訓練使用的Bellman equation中。

在Semi-MDP的框架下我們可以寫出強化學習中價值函數的定義,表示司機從一個狀態出發,在給定的派單策略下,直到一天結束的期望收益

跟標準MDP類似,我們可以寫出基於價值函數的一步轉移Bellman方程

上面的公式表示了司機從狀態St經過k個時間步長轉移到St+k,並收穫獎勵R。這裡跟標準MDP最大的不同在於等式右邊第一項等效即時獎勵,不是直接用R,而是對R做了一個跟步長k相關的衰減。在Semi-MDP框架下兩個帶來同樣收益的動作,時間跨度小的動作的等效即時獎勵更大。另一角度來看,這可以理解為對廣泛應用於實際的reward clipping做了一個平滑 (smoothing) 處理,用連續衰減代替了截斷處理 (clipping)。

我們用一個深度神經網絡來表示價值函數,為了增加策略估計中遞歸迭代的穩定性一般需要使用一個慢速更新的目標網絡 (target network),或者使用下面要介紹的在訓練中加入Lipschitz正則化的方法。

一般的強化學習應用,執行策略只需要針對價值函數應用貪心算法,但在線上派單的環境下我們需要調和多司機與多訂單之間的派單限制,所以我們通過解二分圖優化問題來進行全局規劃。線上每2秒派單一次,每次派單會求解一個組合優化匹配問題,目標函數是在滿足派單的限制下使得匹配結果總體邊權和最高

這裡我們使用基於價值函數以及時序差分誤差 (TD Error) 的方法來計算每個訂單與司機的匹配分值

簡單來看,這裡的匹配分數跟訂單終點價值成正比,跟司機當前狀態價值成反比,這使得在派單決策中同時考慮到長期收益 (時間維度上的優化) 以及二分圖匹配得到的空間上最優解,兩者的結合達到時空優化 (spatiotemporal optimality) 的目標。最後,我們在邊權計算中加入了對用戶體驗的刻畫,最終的權值綜合考慮了長期價值司機收益以及用戶體驗多個目標。

如何學習針對派單的時空價值函數?

我們使用神經網絡來表示上面定義的價值函數,訓練通過Bellman方程的價值迭代,如何保證非線性迭代的穩定性以及如何表達狀態空間是學習成功的關鍵。下面我們分為四個部分來介紹我們針對學習的難點提出的技術中的創新。

Cerebellar Embedding

機器學習應用中很重要的一步是如何進行狀態表達。我們提出一種新的基於對狀態空間不同大小的重疊劃分的embedding網絡結構。可以促進訓練中的知識轉移,幫助網絡學習多層次的抽象特徵,同時能解決訓練數據分布稀疏不均的問題。例如人學習人工智慧,我們會對人工智慧領域進行不同的劃分比如強化學習、監督學習,或者圖像識別,自然語言處理,推薦系統,或者優化,統計,控制,具體的應用相當於訓練數據,會同時激活其中多個分類,比如派單應用會激活 (activate) 強化學習,推薦系統,優化控制等。通過解決不同應用,我們學習掌握到不同類別的知識 (高層次的抽象概念)。當拿到一個新的應用,我們可以很快將這個應用映射到我們掌握的類別上,並利用我們對這些類別的知識來快速地求解這個新的應用,這也就是我們常說的泛化 (generalization) 能力。同樣地,我們提出的這個新的網絡結構能夠提升泛化,形成更豐富的狀態表達。


具體在派單中,比如對地理位置的表達,我們使用了大小不同的六邊形格子系統對地理空間進行劃分,這樣具體的地點的狀態相當於包含這個地點的多個大小不同的格子對應embedding向量的加總表示。這樣學習可以達到兩個作用,一是幫助網絡學習比經緯度更抽象的概念比如街道,小區,城市等;其次是針對不同區域比如市中心或者郊區網絡能自適應學習結合不同分割精度來獲得更準確的狀態表達。

Lipschitz正則化 (regularization)

在訓練中我們提出一種新的結合了Lipschitz正則化的策略估計方法,通過直接控制Lipschitz常量來學習得到一個更光滑的價值函數。價值函數光滑程度的重要性主要體現在增強狀態輸入之間關聯性以及提高非線性價值迭代的收斂性兩方面。如下圖所示,黃色跟藍色分別代表使用了和沒有使用Lipschitz正則化的神經網絡。一開始兩個網絡的輸入分布幾乎重合,在對網絡參數加入了相等大小的噪聲後,藍色分布發生了劇烈變化,而黃色分布則體現了對噪聲的魯棒性。

情景隨機化  (contextrandomization)

我們學習的狀態價值函數帶有實時特徵,為了使這部分特徵有更好的泛化能力我們在訓練中使用了類似於Domain Randomization的方法我們稱為情景隨機化。具體來講我們會在訓練之前基於歷史數據建立一個所有實時特徵的基於KD Tree的時空索引,在訓練時針對每個訓練數據的時空狀態我們會在索引中查找歷史上所有落在這個時空狀態附近的實時特徵,並從中隨機採樣用於訓練。通過這樣使得價值函數在訓練中適應不同情況下的實時性,增強對現實中的噪聲及variance的泛化能力。

多城市遷移學習 (multi-city transfer learning)

現實中派單具有很強的區域性,一般以城市為中心,不同的城市因為地理位置,氣候特徵等不同而在供需動態等方面有不同的特性,這可以看作一個典型的多任務學習問題。我們針對派單中的價值估計提出了一種基於progressive network的新的多城市遷移學習框架,可以有效地利用數據量豐富的城市數據來促進對數據稀疏的城市的價值估計;另外,通過在遷移過程中針對不同輸入建立不同lateral connection網絡能夠在訓練中更專注於有效的遷移 (比如實時特徵的處理) 以及通過訓練決定遷移的具體方式及強度 (調整lateral connection的權重)。


模擬及線上實驗結果

我們分別通過線下模擬以及線上AB測試來驗證方法的有效性。在基於現實數據的線下模擬實驗中,我們與其他四種不同方法進行了系統的多城市多天的對比。在為期多周線上AB測試中,在三個不同城市從不同維度上 (應答率,完單率,司機總收入) 與線上默認方法進行了對比。結果均顯示,我們提出的基於神經網絡長期價值估計的強化學習派單算法能進一步顯著提昇平臺司機收入以及用戶體驗。

論文全文:https://www.kdd.org/kdd2019/accepted-papers/view/a-deep-value-network-based-approach-for-multi-driver-order-dispatching

在最新一期的雷鋒網(公眾號:雷鋒網) AI 研習社 大講堂上,滴滴 AI Labs技術團隊也為我們帶來了相應的詳細解讀分享。詳情可 掃碼 觀看回放視頻!


雷鋒網特約稿件,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 滴滴 KDD CUP 2020 賽題詳解
    今年 KDD Cup 2020 的 RL Track(強化學習賽道)最終由滴滴舉辦。在這一挑戰賽中,滴滴邀請全球參賽團隊聚焦按需出行平臺,嘗試應用機器學習解決方案來提出智能策略,在確保用戶體驗的基礎上,進一步提高出行效率和司機收入。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    研究人員設計了一種混合訓練方法來學習匿名中間表示:1 針對特徵隱藏隱私信息的對抗性訓練過程2 使用基於神經網絡的互信息估計器最大限度地保留原始信息通過對TIPRDC進行廣泛評估,並將其與使用兩個圖像數據集和一個文本數據集的現有方法進行了比較。
  • KDD CUP 2020 大獎出爐,中國團隊包攬全部冠亞軍!
    主辦方希望參賽團隊嘗試應用強化學習解決方案提出智能算法策略,在確保用戶體驗的基礎上,進一步提高出行效率和司機收入,將強化學習的價值進一步放大。此次比賽主辦方共設計了訂單分配和車輛調度兩個任務,參賽團隊需設計開發算法來指定在派單窗口內的訂單和司機的匹配,並指引一批空閒司機開往指定目的地。最終結果排名以所有司機的平均日均收入為評判標準。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎,超百位員工參與
    一直以來,谷歌都是 KDD 的積極參與者,自然,今年的 KDD 也不例外,一起和雷鋒網 AI 科技評論來看看谷歌是如何深度參與 KDD 的吧。值得一提的是,這項工作在 DeepWalk 中採用了神經網絡圖形嵌入的隨機遊走範式。《DeepWalk: Online Learning of Social Representations》實際上是 Bryan Perozzi 最初在 KDD』14 投遞的一篇論文,論文使用從截斷的隨機遊走獲得的一系列本地信息,以學習圖中節點的潛在表徵(如社交網絡用戶)的方法。
  • 中國團隊包攬KDD挑戰賽全部冠亞軍,北航拿下KDD最佳學生論文
    其中,北航學生獲得最佳學生論文,滴滴出行6篇論文入選;而在挑戰賽上,美團、第四範式、螞蟻金服、深度賦智等業界團隊,以及國立臺灣大學、東南大學、上海交大、中山大學和清華大學等學術界團隊斬獲了所有賽道的冠亞軍。這次挑戰賽的主辦方大部分來自中國,包括阿里巴巴達摩院、清華大學、BienData、第四範式、滴滴出行等。
  • 滴滴輕快司機怎麼加入?輕快司機報名加入方法詳解
    滴滴輕快司機怎麼加入?輕快司機報名加入方法詳解時間:2020-11-22 23:44   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題;滴滴輕快司機怎麼加入?輕快司機報名加入方法詳解 滴滴輕快司機怎麼報名?
  • CVPR 2019|國內基於無感AI的安全領域論文首次入選
    CVPR 2019|國內基於無感AI的安全領域論文首次入選 2019年03月25日 10:46作者:網絡編輯:王動   近年來,騰訊持續投入AI領域的研究
  • 港科大KDD 2017錄用論文作者詳解:基於異構信息網絡元結構融合的...
    核心思想在這個信息爆炸的時代,推薦系統不僅能幫助用戶更快地獲取感興趣的信息,同時也能創造巨大的商業價值,目前全球主要的網際網路公司都會有專門的推薦團隊來從事推薦算法的研究,旨在提升自己的業務效果。傳統的推薦系統中,最常見的方法就是「協同過濾」,典型的例子就是我們在電商網站見到的「購買該商品的用戶也購買了/也在看」。
  • 滴滴翻譯技術探索與實踐
    並且在實驗中發現,在可控的網絡大小的同時,模型的性能有了合理的提升。由於更大的FFN size容易過擬合,我們將dropout rate設置為0.3。通常情況下,網絡上存在的大都是單語語料。所以在任務開始之前,最主要的工作就是準備平行語料。在滴滴翻譯任務中,數據採集框架示意圖如下圖所示。
  • KDD 2019大獎新鮮出爐!華人博士勇奪最佳論文,「中國隊」橫掃KDD CUP
    為了鼓勵呈現結果的可重現性,KDD 2019 規定只有在文章最後額外提交兩頁附錄體現「可重現性」內容(包括實驗方法、經驗評估和結果)的論文,才有資格參評「最佳論文」獎項。最佳論文:華人一作拿下Research Track 最佳論文那麼,話不多說,首先來看最佳論文。
  • 杜克大學陳怡然組獲獎,數據挖掘頂會KDD 2020全部獎項公布
    論文連結:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf展示頁面:https://www.kdd.org/kdd2020/accepted-papers/view/on-sampled-metrics-for-item-recommendation最佳學生論文獎
  • 2019年開始,滴滴強制清退無雙證司機?你知道滴滴真正的用意嗎?
    今天先問大家一個問題:對於限制沒有辦領雙證的滴滴司機接單,你們相信嗎?對於這個問題,有許多的滴滴司機反應平常的時間沒有實時單可接了,而且一整天從早晨開始就沒有預約來單分派,這也是讓許多的車主都感覺是不是滴滴開始動真格的了?對一些辦理雙證的司機進行了派單傾斜?滴滴真的和運管部門達成了妥協嗎?
  • 網絡問政追蹤|派單不合理?貴陽交通部門約談「滴滴」
    4月9日,貴陽市網絡問政平臺報導了《貴陽滴滴司機反映「滴滴出行」平臺派單不合理》一文後,引起了市民、司機及有關部門的高度關注。4月16日,貴陽市交通運輸綜合行政執法支隊觀山湖區大隊,對貴陽滴滴暢行科技有限公司總經理徐斌進行了約談,明確要求「禁止出現向無《網絡預約出租汽車運輸證》的車輛、無《網絡預約計程車汽車駕駛員證》的人員派單」。
  • 交通學院劉志遠教授團隊斬獲KDD CUP 2020桂冠
    參賽者需要解決網約車平臺的訂單匹配與車輛調度問題,邀請全球參賽團隊聚焦按需出行平臺,嘗試應用機器學習來提出智能策略,進一步提高出行效率和司機收入,共同挑戰共享出行領域優化難題。東南大學交通學院劉志遠教授指導的參賽隊伍TLab團隊巧破賽題、推陳出新,提高車輛周轉率,優化系統運營效率。
  • 滴滴:出行平臺入局自動駕駛的「正確姿勢」
    但在滴滴看來,與自動駕駛大量長尾場景及其複雜度相比,有限的自動駕駛車輛和仿真裡程並不足以支撐全自動駕駛技術的實現。「需要足夠多的數據處理可能多次碰到的場景,再把它範圍化處理衍生出來的情況。」孟醒表示。作為出行平臺,滴滴此前推出了「桔視」,這項原本為提升司機服務水平而生的車載設備,在自動駕駛大環境下散發著新的光和熱。
  • IJCAI 2019搶先看:重磅論文&獎項揭秘
    其中不乏一些優秀的國內的研究成果,比如:滴滴AI lab發表了《Artificial Intelligence in Transportation》,基於全球最大的移動交通平臺滴滴的實際應用和需求,重點介紹了移動交通平臺的三大重點;阿里安全中心發表了《Artificial Intelligence for
  • 80公裡外都給我派單!滴滴捨近求遠是為何?司機:我太難了!
    隨著路上的小車越來越多,道路也變得很堵,越是堵車坐公交車會很難受,大家都喜歡用打車,以前打車需要在路邊等計程車,現在直接可以手機網約車了,前幾年各種打車軟體開始了大戰,滴滴、優步、快的等打車軟體一頓混戰,最舒服的還是司機們,補貼簡直拿到手軟,然而現在滴滴一家獨大,司機們卻苦不堪言。
  • 2019年你還跑滴滴嗎?10個司機有9個這樣回答的!
    現在的滴滴已經不是幾年前的那個滴滴了,現在的乘客也不再是以前的坐上車能有個位置就很幸福的乘客了,2018年雙證折磨完了一批司機,2019年你還會跑網約車嗎?如果你想跑,首先你要能接受滴滴越來越少的司機補貼,記得前兩個月每天都差不多有180元左右的獎勵,這時候月入過萬並不是天方夜譚,有了足夠的酬勞,司機自然是幹勁十足。可是現在呢?
  • 滴滴司機的真實狀態!有人月薪過萬,但更多的是這兩種司機
    首先對於跑滴滴來說,兼職和全職有很大的區別,收入也會有很大的不同。全職司機因為跑的單子多,服務分高,相對的投訴量也會低很多,所以平臺派單會偏向全職司機。 而對於兼職司機來說接單量並不高,因為訂單量小一個差評或者舉報就能讓投訴率超出1%,所以有時候系統派單會自動攔截。
  • KDD 2017 獎項全公布,華人成最大贏家
    論文詳細收錄名單如下:http://www.kdd.org/kdd2017/accepted-papers隨後,KDD 2017大會主席Stan Matwin與區域主席Evangelos Milios,被哈利法克斯市政府授予哈利法克斯大使獎。大會副主席Faisal Farooq在發表致辭時,感謝了組委會的48位成員及158位辛勤付出的志願者。