論文詳解:滴滴大數據預測用戶目的地,準確率超90% | KDD 2017

2020-12-03 雷鋒網

雷鋒網 AI科技評論按:在KDD 2017中滴滴研究院副院長葉傑平所帶的滴滴團隊關於計程車組合優化分單模型和目的地預測的論文《A Taxi Order Dispatch Model based On Combinatorial Optimization》被收錄。雷鋒網(公眾號:雷鋒網)將對這篇論文進行詳細解讀。

論文解讀

相比於在搜尋引擎中找到一個想要的網頁,在茫茫車潮中匹配到一輛載你去目的地的車輛會更加複雜。因為網頁可以持續呈現一整天,甚至半個月;但車輛是高速移動的,乘客和司機的相對位置一直在實時變動。匹配的過程和方式也極其重要,在一個既定區域,乘客有很多,車輛也有很多,系統需要全局考慮區域內的需求、供給,以毫秒級的速度進行計算,實時地進行最合理的分單,最大化用戶的出行效率和出行體驗。

這篇論文中介紹在滴滴計程車中使用的基於組合優化的分單模型,該模型相較於別的分單模型,整體成交率得到了提升。此外為了進一步提高用戶叫車時的體驗,滴滴還開發了一個目的地預測模型,能在用戶打開軟體時,2毫秒為用戶推薦出他最可能前往的地點。目前這一功能的預測準確率已經超過90%。

1、分單時優化整體成交率

早期,計程車打車軟體的訂單分配主要聚焦在每個訂單與每個計程車司機的相關性算法上。當一個乘客發起一單需求,系統會儘量匹配調度最近距離的司機,力圖讓接駕時間最短。然而此時往往會忽略到這些司機是否更適合其他訂單。

此前業界曾提出過一個基於多代理體系結構的新模型NTuCab,它的目的是最小化乘客的等待時間和接駕距離。這一模型會將每個代理視為一個計算單元,它會同時計算處理N個訂單和司機的匹配,但一個訂單只會匹配一個計程車司機。如果一個計程車司機拒絕該訂單,系統才會轉發給下一司機。

然而這些方法的調度時間往往偏長,成功率較低。對此,滴滴出行提出了新的組合優化方法。在這個模型中,一個訂單會播報給幾個計程車司機,當多個計程車司機收到相同的訂單時,最先搶單的人會獲得訂單。如果訂單未被應答,則進入下一輪播單,直到它被計程車司機應答或被乘客取消。而模型的目標則是最大化訂單成交率,從而確保司機和乘客的出行體驗。實驗數據也顯示,這一模型下打車的全局成功率比同類模型高出了4%。

在滴滴的模型中一個主要的改進是使用「整體」的概念,即會整體考慮當前時刻所有待分配司機和訂單群體的多對多的匹配問題。以成交率為優化目標,通過整體分配司機與乘客,提升乘客訂單的整體成交率。

模型的數學形式即:

 

其中,max(E) 為整個模型的優化目標,即成交率;g(a)≤0 為模型必須要滿足的約束條件,在這裡可能是一些業務規則,比如一個司機同一時刻只能分配一個訂單等;a 為模型的解,即如何對整體的訂單和整體的司機進行分配。

假設當前有n個待分配訂單,m 個待分配計程車司機,那麼整體的待分配訂單與待分配司機的匹配結果可以定義為一個m*n的矩陣A_m*n,其元素a_ij的含義如下:

 

其中,下標i代表訂單,j代表司機。考慮到每個計程車司機同一時刻只能播送1個訂單,那麼對每個司機,也就是每個j而言,其至多只能播送n個訂單中的一個,表現在矩陣中,就是對每個j的一列,至多只能出現1個「1」,其餘必須全部為「0」。即:

2、Logistics Regression模型計算司機接受概率

雖然對模型的目標和求解進行了定義,但這其中,還存在一個關鍵因素,需要考慮司機對訂單的接受意願。司機接受訂單的概率往往取決於諸多因素,如訂單的價值、接駕距離、方向夾角、行駛方向等。這些信息可以編碼成特徵向量x_ij。

作者用p_ij表示司機dj對訂單oi的接受概率,關於這個概率的計算,作者借鑑了計算廣告學中CTR預估的方法,採用logistics regression模型來進行計算。

 

作者採用日誌中的數據對logistics regression進行訓練,以司機是否接受為y,其餘特徵為向量x,訓練得到sigmod函數 y = 1/(1+exp(-w*x)) 中的權重向量w。將司機對訂單的接受概率與模型關聯起來,第i個訂單的成交概率即為:

這樣整個組合優化模型即為:

研究人員在北京進行了嚴格的AB測試,將該模型與另外兩種行業普遍運用的模型進行了比較,把成交率、平均接駕時長、訂單應答時長、取消率等業務關鍵指標作為核心評價指標。實驗結果顯示,該模型有更好的表現效果,訂單整體的成交率提高了4%。

3、預測目的地:循環正態分布下的概率計算

在寒風凜冽的冬天,讓用戶哆哆嗦嗦地輸入目的地,這個體驗並不算好。如果能夠在用戶發出訂單前,率先為用戶推薦他最可能前往的地點,往往可以大幅減少他自行操作軟體時間。

基於滴滴平臺海量的歷史數據,研究人員發現,人們的出行往往存在一定的規律,用戶往往傾向在類似的時間到達相同的目的地;而對訂單的位置進行分析,也有助於精準推薦用戶的實時目的地。

基於這一觀察,研究人員使用了貝葉斯公式建立用戶目標的概率分布模型:


其中,T代表當前時間,D表示日期,(lat, lng)表示經緯度,{y1,y2,…,yi,…,yn}表示目的地的可能性,X表示出發地的時間和經緯度。那麼剩下的問題是估計出發時間和地點 (經度和緯度)的概率分布:


而歷史數據分析顯示,用戶目的地的出發時刻的頻率直方圖往往呈現如下正態分布,於是研究人員採用正態分布對出發時刻T的條件分布進行估計。但如何估計這個分布的期望和標準差,這就成為一個需要思考的問題。

考慮到時間和經緯度的分布具有周期循環性,均值和方差不能用傳統方法來估計。因此研究人員使用了循環正態分布,建成一個優化模型,通過求解,得到了期望的平均值和方差。


這樣整個算法的流程變為:首先根據用戶的歷史訂單,依次計算每個目的地對應的發單時刻的期望和方差;然後根據當前時間計算每個目的地概率的中間數據;第三步用貝葉斯框架計算每個目的地的概率;最後確定閾值,滿足閾值的就是研究人員要的計算結果:

Step1:根據用戶訂單歷史,估計每個目的地的發單時刻集合的平均值和方差;

Step2:根據當前時間,計算每個目的地的P(T|X_i)和頻率P(X_i);

Setp3:計算每個目的地的概率P(X_i | T )

Step4:確定支持度閾值s和概率閾值p,對滿足閾值的予以首屏展示。

實驗數據顯示,這一預測模型明顯優於基線模型,這一模型下的預估準確率達93%,較基線模型高出了4個百分點。

雷鋒網註:

論文下載地址:http://www.kdd.org/kdd2017/papers/view/a-taxi-order-dispatch-model-based-on-combinatorial-optimization

相關文章:

作為KDD 2017鑽石贊助商,滴滴出行在現場有哪三大亮點值得關注?(附論文視頻)| KDD 2017

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • KDD 2018:滴滴提出WDR模型顯著提升ETA預測精度
    事項:KDD 2018獨家約稿
  • ...2017鑽石贊助商,滴滴出行在現場有哪三大亮點值得關注?(附論文...
    通過查找,雷鋒網發現滴滴在這次大會中共有4個活動:14日下午13:30-14:20,在「城市計算」研討會中,滴滴副總裁、滴滴出行研究院副院長葉傑平將做一個關於「滴滴出行中的大數據」的受邀報告。關注點一: 滴滴出行中的大數據目前滴滴平臺擁有4億用戶,日訂單量超過2000萬。在中國滴滴現在每天新增數據量有70TB+,每日處理數據4500TB,每日路徑規劃超200億次。所以滴滴平臺的大數據是毋庸置疑。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎,超百位員工參與
    的博士論文獎被谷歌的 Bryan Perozzi 摘得,這一獎項被授予在數據挖掘和知識發現領域有所建樹的傑出博士生。《DeepWalk: Online Learning of Social Representations》實際上是 Bryan Perozzi 最初在 KDD』14 投遞的一篇論文,論文使用從截斷的隨機遊走獲得的一系列本地信息,以學習圖中節點的潛在表徵(如社交網絡用戶)的方法。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎
    KDD 2017 已於近日落下帷幕,作為數據科學、信息檢索、數據挖掘和機器學習的頂級會議,KDD 為學術界和工業界提供了一個寶貴的交流機會。《DeepWalk: Online Learning of Social Representations》實際上是 Bryan Perozzi 最初在 KDD』14 投遞的一篇論文,論文使用從截斷的隨機遊走獲得的一系列本地信息,以學習圖中節點的潛在表徵(如社交網絡用戶)的方法。
  • 滴滴KDD 2019 論文詳解:基於深度價值網絡的多司機智能派單模型
    本次KDD大會首次採用雙盲評審制,共吸引了全球範圍內約1879篇論文投遞。其中,Applied Data Science track收到約 700 篇論文投稿,最終45篇被接收為Oral論文,100篇被接收為Poster論文;而Research track 共收到了 1179 篇投稿,最終111篇被接收為Oral論文,63篇被接收為Poster論文。
  • 滴滴科技開放日:如何利用出行交易中的大數據優化乘客體驗
    滴滴科技開放日上,滴滴產品技術管理團隊與高校學生、專業技術人員展開面對面交流,詳細介紹了滴滴在大數據、人工智慧領域的最新科技成果,重點分享了滴滴在智能派單、地圖、拼車、供需預測、智能客服、語音識別等領域的實踐經驗。
  • 中國軍團稱霸KDD:華人博士獲最佳論文,清華北大華為等榜上有名
    應用賽道收到700餘篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應用賽道接受112篇,接收率22.5%。
  • 論文主題、引用量、中國機構 & 華人學者,KDD 2020 關鍵數據搶先看
    本文將推薦系統形式化為一個順序推薦問題,目的是預測用戶可能與之交互的下一個項目。最近的研究通常從用戶的行為序列中給出一個整體的嵌入。但是,一個統一的用戶嵌入不能反映用戶在一段時間內的多重興趣。在這篇文章中,作者提出了一個新的可控的多興趣序列推薦框架ComiRec。本文的多興趣模塊從用戶行為序列中獲取多個興趣,可用於從大規模項目池中檢索候選項目。然後將這些項輸入聚合模塊以獲得總體建議。
  • 阿里KDD2017論文:基於大規模圖計算的本地算法對展示廣告的行為預測
    在 2017 國際知識發現與數據挖掘大會(KDD)全球論文投稿中,阿里集團和螞蟻金服共有 5 篇論文被大會收錄,本次被收錄論文涵蓋深度學習、大規模圖計算、商品智能排序等多個研究領域,基於真實的業務場景或數據樣本,文中部分方法結論已經在業務中運用。
  • 日本地震預測新技術 地震烈度預測準確率可達90%
    【環球網綜合報導】據日本《讀賣新聞》7月15日報導,日本氣象廳於14日發布消息稱,將導入全新的分析方法以提高緊急地震預報的準確率。新方法可使地震烈度預報的準確率由此前的60%左右提升到將近90%,該技術將於2019年正式投入使用。
  • 港科大KDD 2017錄用論文作者詳解:基於異構信息網絡元結構融合的...
    作者介紹本文主要介紹 KDD 2017 的一篇有關推薦系統的論文:「Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks」 這篇論文被KDD 2017的research track接收並做口頭報告(錄取率8.6%)。
  • 拆解滴滴大腦 葉傑平談出行領域算法技術
    滴滴搭建的核心算法模型,可以幫助實現更準確的預測能力、智能的調配能力,提高效率降低成本,達到最優運力調度。雲計算提供強大、靈活的計算能力,滴滴的業務場景對計算要求和實時性都非常高,用戶輸入一個目的地,最佳合理調度都由滴滴大腦以毫秒級的速度來計算,例如通過滴滴雲計算搭建了大規模實時分單處理平臺,可以實現多維度最佳訂單匹配。滴滴平臺已經有數萬臺伺服器,未來兩年伺服器規模將達到數十萬臺。
  • 用圖計算做黑名單測試 京東金融準確率超90%
    9月17日,在2017第二屆中國金融科技大會上,京東金融CEO陳生強表示,「做科技公司必須要擁有最前沿的科技能力和持續的投入。而對於金融科技公司而言,不管是輸出風控、用戶運營,都是基於海量、多維、動態的大數據,而要處理這些數據,人工智慧是一個必需品。」
  • 高德發布十一出行節數據:核心數據連續三年翻倍增長
    送出超11億元出行福利 合作品牌獲曝光近50億次  據介紹,此次高德地圖全民出行節聯合了多方合作夥伴一同為用戶提供出行便利。包括陽光保險、民生銀行、華住集團、海南航空、飛豬、蝦米、攜程、滴滴、銀泰百貨、口碑、漢堡王、德克士、太平洋咖啡等等在內近二十家合作夥伴參與了高德地圖的十一全民出行節活動。
  • AI 或可預測夫妻吵架,準確率 79.6%
    來源:HyperAI超神經 新奇 AI 或可預測夫妻吵架 準確率 79.6% 夫妻之間吵架是常見的場景
  • 勁旅諮詢發布《2017年在線旅遊目的地信息服務市場研究報告》
    北京2017年4月1日電 /美通社/ -- 勁旅諮詢3月29日最新發布了《2017年在線旅遊目的地信息服務市場研究報告》,本次關於在線旅遊目的地信息服務市場的研究,主要是通過了解中國在線旅遊用戶出遊時的信息服務需求及行為特徵,針對整體出遊、景區、餐飲、玩樂、社交及購物等方面的信息服務進行研究,希望對中國在線旅遊目的地信息服務市場進行深入的分析
  • 滴滴智慧信控系統嘗試 用大數據解決城市堵車難題
    三是缺乏算法和大數據分析計算能力,無論是信號優化、路況態勢研判、軌跡分析、圖像識別等都涉及到需要先進算法支持,以及對實時數據的大規模計算能力。滴滴智慧信控系統為城市交管賦能鄭劍峰表示,為應對城市智慧交通發展的挑戰,需要我們在大數據、雲計算以及人工智慧等方面擁有足夠的積澱,將智能算法與交通工程領域的專業技能充分融合,為城市交通多元的應用場景提供智能化解決方案。滴滴進入智慧交通領域的切入點是數據,目前滴滴平臺註冊用戶已經超過5.5億,每天處理超過106TB的軌跡數據,4875TB的綜合數據。
  • 大數據趨勢預測靠譜嗎?德國研究者用1.7萬篇arXiv論文預測機器學習...
    近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。
  • 大數據分析與應用技術國家工程實驗室助力科學抗疫
    滴滴出行發揮其在出行領域數據及算法特長,創新驅動,使命驅動,體現了公司的社會責任感。未來,國家工程實驗室將聯合更多的企業和研究機構,協同合作,進一步開展各行各業大數據的研究和應用,為全社會提供服務。滴滴出行高級副總裁、雲平臺事業群負責人、大數據分析與應用技術國家工程實驗室理事會常務理事章文嵩表示,此次發布「城市交通活力恢復指數」,希望基於滴滴的技術和數據分析能力,讓大家直觀看到每個城市交通的恢復情況,為有序推進生產生活恢復提供更多信息參考,這也得到了大數據分析與應用技術國家工程實驗室和賽迪研究院的大力支持。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    結果表明,經過模型美化後的生成圖像可以為模型表現帶來顯著提升,在 MGIIGaze 數據集中不依靠任何有標註的真實數據就可以取得超過以往的表現。論文詳解:上周時候蘋果開放了自己的機器學習博客「蘋果機器學習日記」,其中第一篇就是對這篇獲獎論文的詳解,雷鋒網 AI 科技評論編譯文章在這裡,歡迎感興趣的讀者詳細了解。