雷鋒網 AI 科技評論按:本周末,每年一度的數據挖掘的頂級會議ACM SIGKDD在加拿大新斯科舍省省會哈利法克斯拉開了序幕,整個會議13號到17號,持續5天。在異國他鄉的頂尖國際會議上,雷鋒網(公眾號:雷鋒網)AI科技評論發現,不僅在收錄論文列表裡頻頻出現中國人的名字,甚至連贊助商都有一系列的中國公司位列前排,其中「滴滴出行」則以鑽石贊助商的身份排在首要位置。這就引起了我們對滴滴在此次會議中活動的特別注意。
通過查找,雷鋒網發現滴滴在這次大會中共有4個活動:
14日下午13:30-14:20,在「城市計算」研討會中,滴滴副總裁、滴滴出行研究院副院長葉傑平將做一個關於「滴滴出行中的大數據」的受邀報告。
14日晚上19:00-22:00,論文報告「A Taxi Order Dispatch Model based On Combinatorial Optimization」。
15日中午12:30-13:30,滴滴在會展展位將會開啟一場精彩對話。
15日下午13:30-17:00,滴滴副總裁葉傑平也將在中國專場做一次報告。
關注點一: 滴滴出行中的大數據目前滴滴平臺擁有4億用戶,日訂單量超過2000萬。在中國滴滴現在每天新增數據量有70TB+,每日處理數據4500TB,每日路徑規劃超200億次。所以滴滴平臺的大數據是毋庸置疑。滴滴如何把實時的交通信息整合在一塊,通過背後龐大複雜的算法和計算平臺做到實時、智能的決策,這將是非常值得關注的。通過葉傑平在之前的一些演講,我們可以發現人工智慧、機器學習算法在滴滴出行的大數據處理中佔據著極為重要的地位。據了解,最近滴滴更新了一版深度學習,其效果如何或許將在這次會議中對外揭曉。
關注點二:論文報告作為其研究成果的論文報告也是非常值得關注的。在KDD官網上這篇論文《A Taxi Order Dispatch Model based On Combinatorial Optimization》的摘要如下:
計程車的應用程式在世界各地非常受歡迎,因為它們為用戶提供了快速的響應時間和便利性。計程車預訂應用程式的關鍵組成部分是調度系統,該系統旨在提供駕駛員和車手之間的最佳匹配。傳統的調度系統依次向乘客派出計程車,其目的是最大化每個獨立訂單的司機接受率。但這種調度系統不能保證全局的成功率,這就會降低用戶在使用應用程式時的體驗。在本文中,我們提出了一個新的調度系統來優化多個訂單下的計程車調度。這個系統旨在最大化全局調度的成功率,從而優化整體的交通效率,給用戶帶來更好的體驗。為了進一步提升用戶體驗,我們還提出了一種在開啟計程車預約APP時預測用戶目的地的方法。這種方法使用了貝葉斯結構來根據他/她的旅行歷史來對用戶的目的地的分布進行建模。
我們使用A/B測試比較了我們新的計程車調度方法與從北京收集的數據建立的最先進的模型。實驗結果表明,該方法在全局成功率(從80%增加到84%)方面優於其他最先進的模型。此外我們還對其他指標(如用戶的等待時間和接收距離)進行了顯著改善。我們將表明,我們的目標預測算法優於基於KNN方法的基準模型,與精度排名前三的模型相比,我們的精度提升了89% - 93%。這種新的計程車調度和目的地預測算法已經部署在我們的在線系統中,每天為數千萬用戶服務。
論文下載:A Taxi Order Dispatch Model based On Combinatorial Optimization
關注點三:合作論文此外,還有一篇入選論文《The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands based on LargeScale Online Platforms》,雖然不在滴滴的活動列表中,但有滴滴副總裁葉傑平和Jie Wang的參與研究(其他研究者還有北航的Yongxin Tong, 第四範式的陳雨強,蘇黎世聯邦理工的Zimu Zhou,香港科大的陳雷和楊強)。摘要如下:
Author(s): Yongxin Tong (Beihang University);Yuqiang Chen (4Paradigm Inc.);Zimu Zhou (ETH Zurich);Lei Chen (Hong Kong University of Science and Technology);Jie Wang (Didi Research);Qiang Yang (Hong Kong University of Science and Technology);Jieping Ye (Didi Research)
計程車應用程式現在越來越受歡迎,因為它們能有效地為有需要的乘客派遣空閒的計程車。為了更精確地平衡計程車的供應和需求,在線計程車平臺必須預測單元計程車需求(UOTD),也即單位時間(例如每小時)、單位面積(例如每POI)發起的計程車需求數。UOTD的預測對於大型在線計程車平臺來說是沒有意義的,因為對它們來說精確性和靈活性是至關重要的。複雜的非線性模型(如GBRT和深度學習)通常是精確的,但在情景變化(例如新的規定導致的額外限制)後就需要大量的工作來重新設計模型了。為了精確地預測UOTD,同時保持靈活的情景變化,我們提出了LinUOTD,這是一個具有超過200萬維特徵的統一線性回歸模型。這個簡單的模型結構消除了模型重設計的需要,而且高維特徵有助於精確地預測UOTD。此外,我們設計了一系列優化技術用於高效的模型訓練和更新。我們使用了兩個來自在線計程車平臺的大型數據集進行的評估證明了LinUOTD在精確性方面優於流行的非線性模型。我們認為我們在UOTD預測中使用地高維特徵的簡單的線性模型可以作為一個試點研究,它可以應用到深入了解其他工業大規模時空預測的問題當中。
論文下載:The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands based on LargeScale Online Platforms
2015年5月,滴滴正式成立機器學習研究院,將機器學習大規模應用在出行領域;2016年4月,滴滴機器學習研究院升級為滴滴研究院, 目前其研究項目包括ETA、動態調價、智能分單、拼車、供需預測、運力調度、熱力圖等核心項目,研究方向則包括機器學習、計算機視覺、人工智慧、數據挖掘、最優化理論、分布式計算等。在今年3月滴滴出行又宣布在美國加州矽谷成立滴滴美國研究院,把挖人的觸角直接伸到了美國矽谷。從2012年的微不足道,短短五年已至如此,其成長不可謂不迅猛。
SIGKDD 2017大會將有更多精彩呈現,雷鋒網AI科技評論將從一線帶來精彩報導及內容。
相關文章:
KDD 2017在即,Keynote內容搶先看|KDD 2017
KDD 2017現場探營:務實、豐富,數據大爆炸的盛會即將開啟 | KDD 2017
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。