8億鐵路大數據在風控、助貸及用戶分層等近20個場景的應用解析

2020-12-12 人人都是產品經理

根據相關專業機構及專業人員的實際應用效果反饋,鐵路數據在風控策略及助貸業務的客群資質識別都有非常明顯的效果。本文詳細解析覆蓋8億人的鐵路數據,希望可以給到各部門夥伴一定的參考。

目錄:

前言

一、覆蓋8億群體的12306歷史發展

二、鐵路客運用戶畫像系統

2.1系統總體架構設計

2.2對接系統及數據

2.3數據處理的類型

2.4鐵路系統主要數據源分布

三、基於用戶行為的用戶畫像

鐵路旅客畫像

四、鐵路用戶畫像實現步驟

4.1數據源分析

4.2客票特徵數據

4.3客票原始數據

4.4目標分析

4.5標籤計算

4.6鐵路用戶特徵

4.7鐵路用戶出行特性

五、客列車分類【主要關注GCD列車】

高速動車組列車(G字頭)

城際動車組列車(C字頭)

普通動車組列車(D字頭)

直達特快旅客列車(Z字頭)

特快旅客列車(T字頭)

快速旅客列車(K字頭)

普通旅客快車(普快)

普通旅客列車

臨時旅客列車(L字頭)

旅遊列車(Y字頭)

六、指標分析邏輯舉例

6.1單個指標分析

6.2多指標分析

6.3通過旅客周轉量及客流量做分析

6.4通過客運量做分析

6.5常住地界定

七、用戶畫像系統鐵路公司對外應用場景

7.1核驗服務

7.2精準營銷

7.3業務預測

7.4風險識別

八、用戶畫像系統的應用

8.1徵信服務

8.2用戶核驗系統

九、鐵路數據應用場景及價值

9.1社會價值

9.2經濟價值

十、結語

前言

在個人金融風控場景,常見的數據除了基礎核驗外(身份證2要素、銀行卡3/4要素、運營商3要素)外,運營商爬蟲(現禁用)、央行徵信(持牌機構使用較多、助貸機構及金科使用較少)、民間借貸記錄、設備行為統計形成的用戶畫像等,社保、公積金、電商數據由於數據的開放性問題,其實使用的不多。

然後由於最近半年的數據行業的緩存及敏感數據的外洩或與高利貸合作的不良行為,導致主營運營商爬蟲及民間借貸記錄2類數據產品的機構被查,相關產品無法對外,引起了大部分包括銀行在內的相關風控策略的大調整及產品調整。

很多行業的夥伴都在愁,有無什麼數據來源合規安全且可以在一定程度上替換運營商爬蟲及民間借貸記錄數據效果的,航旅及鐵路或者是相對有效的。

根據相關專業機構及專業人員的實際應用效果反饋,鐵路數據在風控策略及助貸業務的客群資質識別都有非常明顯的效果。

之前已經分析過航旅數據,這次詳細解析覆蓋8億人的鐵路數據,希望可以給到各部門夥伴一定的參考。

鐵路數據部分欄位維度是這樣的:

一、覆蓋8億群體的12306歷史發展

12306網站於2010年1月30日(2010年春運首日)開通並進行了試運行。用戶在該網站可查詢列車時刻、票價、餘票、代售點、正晚點等信息。

2011年06月12日,京津城際鐵路率先試水網絡售票。

2011年9月30日,所有動車組線路實施網上訂票。

2011年11月20日,Z字頭全部直達特快列車車票實施網上訂票。

2011年12月23日,鐵道部最終兌現在年底前網絡售票覆蓋所有車次的承諾。

2013年11月20日,12306新增支付寶支付通道。

2013年12月6日,改版後的12306網站上線。

2013年12月8日,12306手機客戶端正式開放下載。

自2015年11月26日鐵路春運售票工作啟動以來,截止12月15日,鐵路部門共發售火車票1.7億張,其中,通過12306網站發售車票突破1億張,已佔到售票總量60%。自2011年推出網絡購票以來,12306網站累計發售火車票35億張。

自2017年7月17日起,乘坐G、D字頭列車的乘客可以通過12306網站或客戶端提前預訂動車上的飯菜以及站外的食物。同時,如果是通過電話、車站窗口、代售點、自動售票機等其他方式購票,也可登錄12306網站或移動客戶端,從首頁選擇「訂餐服務」,輸入車次和聯繫人信息後,同樣能進行點餐,可以通過微信和支付寶實現快捷支付。

另外,已經訂好的旅客,如果要進行網上退票、改籤、變更到站,系統會自動提醒旅客進行退餐,在實體窗口進行了以上操作的旅客,也可在網上自行辦理退餐。【意味著,鐵路體系的用戶餐飲消費記錄最早可以溯源到2017年7月。】

2019年5月,來自中國國家鐵路集團有限公司的統計顯示,系統年售票量已超過31億張,日售票能力達到1500萬張,高峰時每秒售票量達700張,網頁瀏覽量超過1500億次/天。網際網路售票佔鐵路售票總量的82.8%,12306已經成為世界上規模最大的實時票務交易系統。【10000次瀏覽量才有1張票成交,萬分一的成交率。這其中應該大多都是搶票軟體帶來的流量。】

中國鐵路客票系統作為全球交易量最大的鐵路票務系統,已服務8億人群,並有3億12306網站註冊用戶,2億12306客戶端總裝機量。

目前,12306網際網路售票佔比最高超過80%。

鐵路客運快速發展積累了大量數據,這些數據產生於系統運行、業務運營、旅客出行等各個環節,對它們的整合和分析可為管理部門提供決策支持,為運營部門業務開展提供支撐,為旅客用戶提供更個性化、更好的社會化服務。因此,充分發掘和利用這些數據資產,可為鐵路產生巨大的價值。

中國鐵路客票團隊從2012年開始進行大數據的應用技術研究,針對數據採集、存儲、處理、共享、可視化及數據安全等形成技術積累和人才儲備,對客運業務及運營需求進行數據歸類、模型建立和經驗總結,將技術與應用結合實踐,搭建小規模的大數據平臺,並在部分業務系統中開展試點應用。

鐵道部是在2011年年底前實現網絡售票覆蓋所有車次,代表鐵路+網際網路已初步實現,網際網路化過程會產生大量線上數據,這就需要鐵路部門開始建設相應的數據治理平臺及數據在內部應用的嘗試】

二、鐵路客運用戶畫像系統

大眾出行的工具無非就是自行車、摩託車、汽車、客車、鐵路、航空、海運等。鐵路作為人們出行的重要交通工具之一,一開始也只是想著或者只提供單一的快速出行服務。但網際網路的高速發展、給予了鐵路更便捷的購票方式體驗,而高速鐵路班次的開通為注重出行質量的群體多了一個選擇,這樣的基礎環境下,鐵路用戶的數量增長很快。

但其實還是會持續面臨競爭對手汽運、空運的競爭,並且網際網路時代用戶都習慣了一條龍的服務。即便是傳統的鐵路服務也不能不隨之升級轉變,逐漸往生態合作的方向嵌入出行鏈前後的產品服務,提升用戶體驗,提升競爭能力,也為鐵路集團延展了更多的收入入口。

例如站車WIFI運營服務、網際網路訂餐、約車、酒店、旅遊等延伸服務系統,延伸服務的開發為鐵路客運一站式服務提供了基礎。維護客戶關係的核心的保障核心服務質量的同時,給與客戶出行鏈條全方位的增值服務。

與之匹配的,將原本的客運決策系統,僅能基於客座率、運行圖、旅客出行規律等提供決策服務的,重新升級打造成為增加針對旅客購票行為、出行行為、訂餐行為、站車WIFI上網等數據進行深入挖掘的的用戶特徵的分析系統,滿足不同旅客的個性化產品服務需求。

鐵路客運用戶畫像系統對內不僅能夠為鐵路12306網際網路售票系統、站車WI-FI運營服務系統、網際網路訂餐服務系統等鐵路各個系統提供旅客群體分析、用戶異常行為發現、客運產品智能精準營銷、廣告投放等服務,對外可以為第三方企業提供數據核驗、精準營銷方案等服務。

旅客群體分析及用戶異常行為發現等,其實都需要相關場景板塊用戶參與頻次夠多才可以實現,單純依靠鐵路體系的沉澱數據,進展會相對較慢。另外對外服務的產品能力其實是參考運營商體系搭建的,鐵路數據核驗=運營商3要素核驗,鐵路客戶精準營銷=運營商精準營銷。從單的客群覆蓋率來說,鐵路是比任一一家運營商的覆蓋都大的,但從頻率和維度來說,鐵路之前的數據沉澱肯定還是有待提高的。】

鐵路客運用戶畫像系統綜合考慮了分布在業務系統專網、鐵路服務內網、鐵路服務外網等網絡中的相關服務系統,構建了安全可靠的數據採集子模塊以及數據服務子模塊,在保證各鐵路客運信息系統正常運行的情況下,能夠進行業務數據採集存儲,深度挖掘潛在的價值,並將分析結果運用到各個業務系統內,提高各個信息系統的服務質量。

客運用戶畫像的規划起因:

  • 一方面,鐵路企業無法依賴傳統的運輸服務來分析旅客的特徵及分類;
  • 另一方面,隨著鐵路的競爭對手(航空、公路等)對旅客用戶標籤特徵的越來越重視,這種反差會直接導致鐵路高價值旅客的大量流失。因此才有鐵路公司自行打造客運用戶畫像系統的念頭。

2.1系統總體架構設計

鐵路客運用戶畫像系統需要與鐵路12306網際網路售票系統、客運營銷系統、站車WIFI運營服務系統、網際網路訂餐系統等進行數據交互,考慮跨網數據傳輸、設備資源分布等情況,鐵路用戶畫像系統主要在鐵路服務內網建設。

鐵路客運用戶畫像系統按照鐵路服務內外網安全規範進行建設,利用數據及服務接口通過安全平臺組件實現業務系統專網、鐵路服務內網、鐵路服務外網等部署的相關系統與鐵路客運用戶畫像系統間的數據交換。

2.2 對接系統及數據

無論是鐵路12306網際網路售票系統、客管系統、清算系統、客服系統、財保系統、簡訊平臺、支付平臺等客運生產和服務系統,還是來自於客運相關的延伸服務系統網際網路訂餐、廣告和站車Wi-Fi運營服務等系統。由於系統構建的時間不同,採用的技術不同,系統中存儲的數據類型和格式也千差萬別,要把這些數據都納入到鐵路客運用戶畫像系統中,經過加工和整理後才能使用。

2.3 數據處理的類型

根據鐵路信息系統的數據特點,主要涉及的數據來源包括網站和手機交易終端的業務交易數據、網站和手機APP的瀏覽行為日誌數據、線下設備的傳感器數據、安全設備的圖像視頻數據、通信設備的信令數據等。

根據數據的格式分成結構化、半結構化兩大類;根據數據來源的業務時效性要求可以分成批量離線運算、準實時分析運算、實時流式運算、實時數據檢索等類別。

2.4 鐵路系統主要數據源分布

作為數據存儲和處理的基礎平臺,鐵路客運用戶畫像系統需要從多個客運生產、服務系統以及延伸服務系統中進行數據採集。

(1)鐵路客票發售和預定系統

鐵路客票發售和預定系統(簡稱「客票系統」)主要包含旅客實名信息、鐵路客票數據、訂票存根等。

鐵路客運用戶畫像系統可以從客票系統獲取旅客購票和出行的相關信息。

(2)鐵路12306網際網路售票系統

鐵路12306網際網路售票系統為旅客提供了網際網路售票渠道,該系統產生了大量的用戶登錄、查詢、購票、支付等日誌數據,以及用戶的基本信息,包括姓名、身份證號、手機號、郵箱等。

鐵路客運用戶畫像系統可以從鐵路12306網際網路售票系統獲取旅客購票行為方面的信息。

(3)鐵路旅客運輸管理信息系統

鐵路旅客運輸管理信息系統(簡稱「客管系統」)是以客運管理和服務人員為用戶,集客運乘務管理、站車交互、旅客服務於一體的綜合管理信息系統,實現了旅客運輸管理和服務信息的共享。

鐵路客運用戶畫像系統通過接口可以從客管系統獲取客運管理和服務方面的相關數據。

(4)鐵路旅客運輸清算系統

鐵路旅客運輸清算系統以清算規則為依據,通過創建清算資料庫、構建清算模型和規則庫進行清算處理,為運輸企業提供收入費用的清算和資金結算服務,同時利用智能分析和數據挖掘技術為運輸企業提供輔助決策支持。

鐵路客運用戶畫像系統可以從清算系統獲取費用清算方面的相關數據。

(5)12306客戶服務系統

12306客戶服務系統是鐵路服務客戶的重要窗口,系統採取語音自助、人工在線、網站查詢、客戶信箱等方式,為社會和鐵路客戶提供客貨運輸業務和公共信息查詢服務,並受理旅客投訴、諮詢和建議,累計了大量的旅客的反饋數據和問題處理方式集。

鐵路客運用戶畫像系統可以從12306客服系統獲取旅客諮詢、反饋、投訴方面的信息。

(6)鐵路財產保險信息系統

鐵路財產保險信息系統是為適應鐵路保險業務快速發展的需要,以保險核心業務系統、電子商務系統、財務系統為重點,利用既有鐵路信息資源,構建的保險信息服務體系,實現了投保、承保、理賠、客戶服務等保險業務全流程的電子化、網絡化。

鐵路客運用戶畫像系統可以從鐵路財產保險信息系統獲取投保、理賠方面的相關信息。

投保理賠方面的數據,用在意外險營銷場景比較直接,另外可以根據投保及理賠情況,給與保險機構一定的核保風控參考作用】

(7)簡訊平臺

簡訊平臺與現有交易業務系統緊密結合,提供簡訊息收發功能,目前主要包括鐵路12306網際網路售票系統註冊用戶的註冊通知、購票通知、行程通知等數據,有助於提升用戶體驗和實現精準營銷。

鐵路客運用戶畫像系統可以從簡訊平臺獲取用戶在驗證、訂票等環節的一些操作信息。

簡訊驗證碼的註冊、溝通及行程通知可以明確用戶的出行前的行為,只不過無是否真實出行的反饋。因此如果只關注出行前的行為,部分簡訊運營商的資料庫中也可以獲取。】

(8)支付平臺

電子支付平臺為業務系統提供支付功能,支撐客戶進行業務辦理,如網際網路購票、窗口POS購票、辦理貨運業務等。

鐵路客運用戶畫像系統可以從電子支付平臺獲取客戶辦理業務或者產品銷售過程中支付環節的相關信息。

為鐵路公司提供支付能力的支付機構,其實可以通過用戶在鐵路體系的支付行為獲取用戶的出行頻率及次數,在鐵路生態體系消費情況,從而對外輸出一定的用戶相關的鐵路標籤產品。】

(9)延伸服務系統

延伸服務系統酒店預訂、餐飲服務、廣告、定製服務和站車Wi-Fi運營服務等子系統,主要包括用戶的查詢、訂閱、廣告點擊、服務定製等方面的數據,鐵路客運用戶畫像系統可以從延伸服務系統中獲取的相關數據。

【延伸服務系統的服務,例如酒店預訂這塊,除非鐵路相關APP的用戶粘性很強或者有大的優惠力度,要不然感覺這個業務起量非常難。另外餐飲這塊現在就自身體驗來看,覆蓋率(用戶購買率)其實也一般般,原因是受限於用餐時段限制及餐品及價格影響,後續這塊如果有優化,或者可以有較大的提升。至於廣告等服務的用戶數據適合非常垂直的服務場景,與營銷推送及風控的場景匹配度還是非常有限。】

(10)外部系統

除上述內部系統外,可以通過接口從氣象、航空等外部系統獲取主要航線的架次、起飛時間、票價等,重要地區的氣象數據等。

三、基於用戶行為的用戶畫像

1. 鐵路旅客畫像

鐵路旅客用戶畫像系統是通過對鐵路用戶的行為數據、交易數據等進行採集、加工和分析,形成用戶精準畫像數據,為旅客提供精準服務推薦和個性化的客運服務,對內提升鐵路客戶服務能力和行業核心競爭力,對外支撐精準廣告投放以及開展數據增值服務。

鐵路旅客用戶畫像系統的建立填補了鐵路信息化的一項空白,通過對鐵路用戶的行為數據、交易數據等進行採集、加工和分析,形成用戶精準畫像數據,支撐精準廣告投放和精準服務推薦,為用戶提供更個性化、更好的社會化服務,有利於鐵路部門提升客戶服務能力、提高信息資源收益和核心競爭力。

鐵路客運用戶畫像系統實現了標籤體系、標籤場景、標籤生產、標籤輸出以及價值分析功能,該系統從用戶、時間、標籤三個維度構築鐵路客運用戶標籤,能夠整合鐵路客運各個信息系統多觸點、全渠道的用戶數據,進行多維度分析建模,自動化生成用戶標籤,服務業務場景。這些功能滿足了企業對大數據應用全面性、深入性、易用性這三方面的需求。

鐵路客運用戶畫像系統的標籤主要從統計方法角度,可以分為事實標籤、業務標籤、模型標籤、外部標籤;從標籤業務角度,可以分為用戶基礎標籤、交易類標籤、出行類標籤;從時間角度,可以分為近7天標籤、近30天標籤、近90天標籤、近一年標籤等。標籤結構如圖所示。

四、鐵路用戶畫像實現步驟

構建用戶畫像包含以下步驟:

4.1 數據源分析

構建用戶畫像是對用戶行為數據的抽象表示,所以需要的數據源包括用戶相關的所有數據。首先針對用戶行為數據進行分類,將數據分成靜態數據和動態數據。靜態數據主要包括人口屬性、社會屬性、帳戶屬性、商業屬性等動態數據包括訪問行為、接觸點行為、交易行為等。

鐵路自身的風控系統,針對防黃牛、薅羊毛、惡意搶佔票的數據基本都是以動態數據為主】

以下是鐵路體系比較全的數據欄位,也是鐵路數據現在謹慎對外數據產品來源維度。

4.2 客票特徵數據

購票日期、購票時刻、上車站、下車站、購買席別、購票方式。

4.3 客票原始數據

  • 始發日期、車次、運行區間、列車始發時間、上車站、下車站、售票時間、售票方式、席別名、上車人數等;
  • 席別名:特等座、一等座、二等座、無座;
  • 售票方式:窗口售票、窗口訂票、網上訂票、自動售票、快通卡(京津城際客運專線特有方式);
  • 城市節點信息:城市名稱、行政級別、各年城市人口數量等級、各年人均GDP、各年人均可支配收入等;
  • 路網信息:車站數據錄入,包括車站名稱、車站代碼、車站類型、車站等級、車站裡程、所屬路局、所屬城市等;
  • 列車信息:列車開行車次、始發終到站、上車站、下車站及區間運行時間。

4.4 目標分析

由於標籤和標籤規則需要業務專家參與進行制定,所以定義好畫像的目標是至關重要的。通過對目標的確定和數據的分析,定義出對應的用戶標籤(興趣、偏好、需求等),最終為用戶打上標籤。同時定義出來的標籤根據業務的不同,可以分成事實標籤、業務標籤、模型標籤、反饋標籤等類型。

以下標籤維度,其實嚴格來說,僅靠鐵路體系的數據肯定是不能完全挖掘出來,因此鐵路應該是有接入了其他的用戶數據維度或者其投資支線機構有相關的維度數據才能補充完整。

  • 反饋標籤:有房一族、有車一族、富豪人群、企業高管、出行達人、價格敏感。
  • 模型標籤:高消費人群、目的預測、消費指數、影響力指數、價值評分、潛在分析。
  • 業務標籤:旅客定位、活躍度、出行等級、出行規律、接觸點、出行喜好。
  • 事實標籤:人口屬性、社會屬性、會員屬性、消費習慣、出行記錄、出行方式。

4.5 標籤計算

(1)標籤計算模型參考

根據標籤的特徵,鐵路客運用戶畫像系統標籤的計算方法可以分為規則計算、統計分析、歸納總結等,適於規則計算的標籤有性別、年齡、籍貫等,可以通過身份證號碼識別,統計分析類主要有出行次數、購票次數、出行時間分布等,根據業務規則通過統計計算獲得。歸納總結類,主要是根據用戶標籤屬性進一步通過數學模型歸納總結用戶屬性,如常駐地等。

(2)基礎標籤計算參考

用戶的基礎標籤主要包括用戶的證件號、姓名、手機號、籍貫、年齡、性別等,其中證件號、姓名、手機號等都可以根據用戶的實名制信息或者註冊信息直接獲得。

(3)統計類標籤計算參考

主要是根據旅客交易行為數據進行計算,可以獲得旅客的交易頻次、出行偏好、消費水平等特徵的數位化體現,為旅客群體分類提供了重要的數據基礎。在鐵路客運用戶畫像系統中,用戶的統計類標籤主要包括購票次數、退票次數、購票金額、出行裡程等,這些標籤根據統計周期分為近一年、近9個月、近半年、近3個月、近7天等5大類。

根據旅客的出行、交易、偏好等信息進行計算,以某旅客為例的統計標籤計算如下所示:

  • 用戶出行標籤:近3月乘車總次數、近1年乘車總次數、近1年車費消費總金額、近1年乘車總裡程、近1年總旅行時長、近1年乘車總裡程。
  • 用戶交易標籤:近1年訂單總數量、近1年交易未支付總張數、近1年作為乘車人退票總次數、近1年作為乘車人改籤總次數、近1年車票掛失次數、近1年改籤數量、近3月作為乘車人退票總次數、近3月作為乘車人改籤總次數。
  • 用戶偏好標籤:近1年普通席別乘車數量、近1年高端席別乘車次數(軟臥、高軟、特等、商務)、近1年網際網路購票比例、近1年手機購票比例、近1年提前0-24小時購票比例、近1年提前24-48小時購票比例、近1年提前48小時以上購票比例、近1年G等級列車乘車比例、近1年D等級列車乘車比例、近1年C等級列車乘車比例。

特徵分析舉例,近一年提前0-24小時購票比例判斷該旅客出行有無計劃及頻率佔比、近一年GDC等級列車乘車比例判斷消費水平、近一年手機購票比例判斷手機購票頻次等。故通過對旅客統計類標籤的計算結果進行分析,可以基於某一個特徵或者少數特徵組合對旅客進行群體劃分。

基於以上鐵路用戶的基本出行標籤數據,金融風控環節如何使用? 營銷環節如何形成用戶畫像?我們先來看看鐵路用戶數據背後的含義。

4.6 鐵路用戶特徵

鐵路用戶特徵主要包括:性別、年齡、收入水平、職業特點(個體商人、企業老闆、公職人員、自由職業),家庭環境等因素。

(1)年齡與性別

不同年齡與性別出行者,在出行目的與出行次數上存在差異。年齡介於18-55歲之間的城市居民,其出行目的主要是工作、學習、出差、探親、旅遊、訪友等等,並且其出行頻率要顯著高於其他年齡段的城市居民。女性頻率顯著低於男性出行頻率。隨著出行者年齡的額變化出行者對出行時間、出行方式、車次的偏愛會呈現一定的差異。

(2)職業

旅客出行行為的選擇將會在一定程度上受到個人職業的影響。按照職業的不同,大致可以將出行者分為自有職業人員、個體商人出差、政府企事業單位等部門的公務員公務出差,以及中低收入者、學生出行等幾大類。

比較來看,公務員在出行過程中喜歡選擇快速、舒適、安全、高效的出行方式,對於價格敏感度較低,自有職業人員在出行時對價格敏感程度相對較高。學生群體,因為可以半價乘坐火車的原因,則學生中絕大部分更傾向於選擇鐵路這一方式出行。

(3)收入

收入高低會直接影響絕大出行者的出行行為。不同收入水平階層的出行者由於其日常生活習慣的不同,出行行為存在著明顯的不同。收入較高、經濟能力較強者,鑑於其對生活質量的要求,其在出行中更願意以高價錢獲得更好的、更舒適的出行環境。

出行者會在個人經濟承受能力與出行需求之間尋找一個相對的平衡點,此外,出行者的出行目的與出行路線的選擇也會直接影響其出行行為。

例如不同的收入水平選擇的交通工具肯定不一樣,同一區間的收入水平的群體選擇相同的交通工具的不同檔位的服務肯定有區別。

(4)樣本年齡及收入結構

這裡收集某調研報告中的調查樣本年齡分布數據:

調查樣本年齡結構:

4.7 鐵路用戶出行特性

出行工具、出行距離、出行目的(工作、學習、出差、旅遊、探親、訪友)、出行費用、出行時間。

(1)出行工具

市內:步行、自行車、摩託車、小汽車等。

私人交通方式;常規公交、軌道交通、計程車等公共運輸方式。目的:通勤、通學、休閒娛樂、購物、回程等。

城市群城際間出行:公路、鐵路、水運、航空及城際軌道交通。城市群一般半徑為400KM,公路及鐵路更具競爭優勢。目的:公務、商務、出差、旅遊、探親訪友等

(2)出行距離

出行距離的長短會直接影響到出行者的出行行為。例如在出行距離較短時,出行者大多會選擇自駕、乘公共汽車等公路方式出行,公路出行方式的多樣性也使得公路交通方式在短距離出行中具有很大的靈活性。

同時公路廣泛覆蓋的特點可以輕鬆實現門到門的便利旅行,而對於較長距離的出行,鐵路出行則會作為出行者的首要選擇,其主要原因是鐵路出行相對比較經濟、安全、快速與高校。

在運行速度與舒適程度的大大提高使得更多的人們在800-1000公裡左右的出行時轉向選擇鐵路交通,但對於1000公裡以上或者更遠距離的出行,由於鐵路覆蓋範圍的局限性,使得航空運輸佔有一定的優勢。

(3)出行目的

工作、公務、經商、旅遊、出差、訪友、購物、探親等。

不同出行目的的出行者,對交通運輸服務指標的要求也存在明顯的差異。例如:因公務問題的出行者,對價格的敏感性較小,他們更多的追求出行環境的舒適、高速與安全。而經商出行的出行者,則更加注重到達時刻的準時性,同樣的訪友、購物與探親等自費出行目的的出行者,會綜合考慮更多的因素,即如何在經濟能夠承受的情況下選擇相對快捷及及時的出行方式。

(4)出行費用

出行費用是出行者在整個出行過程中所支付的所有經濟開銷的一種綜合評估,也是影響出行者選擇出行方式的主要因素。出行費用分為出發地的市內交通費用、目的地市內交通費用以及城際間的交通費用三個部分。

以業務出行為主要出行目的的出行者,更傾向於選擇小汽車或者高速鐵路這樣的較舒適與便捷的出行方式,非業務出行的則選擇普通鐵路或者告訴大巴的概率大一些,。這可能是因為業務出行的費用來源通常為公費,出行者對出行費用不敏感,更加重視旅途上的舒適性與便捷性;非業務出行一般為自費,出行者對出行費用較敏感,更加看重各交通方式的經濟性。

(5)出行時間

出行時間分三個部分,出發地市內的出行時間、城際間的出行時間和目的地市內的出行時間。不僅出行的距離影響總出行時間,而且換乘的方便程度也有所相關。

五、客列車分類【主要關注GCD列車】

1. 高速動車組列車(G字頭)

2009年12月26日起,武廣高鐵開行23趟列車,依據規定,武廣高鐵開行高速動車組的車次有個新字母打頭,為「G」,寓意為「高速」。目前在設計時速為300公裡或350公裡的線路上運行時,最高時速為300公裡,鐵路系統標準念法為「高**次」。例如:G字開頭1號車G1001次就是武漢站~廣州南站直達列車。

2. 城際動車組列車(C字頭)

2008年8月1日,京津城際鐵路正式對公眾運行,新啟用車次為C+4位數字,意為城際列車,目前最高時速是300公裡,鐵路系統標準念法為「城**次」。京津城際的車次範圍是C2001~C2282次。例如:武漢城際列車的車次範圍是C5001~C5720。

3. 普通動車組列車(D字頭)

目前,在設計為每小時300公裡或每小時350公裡的線路上行駛時,最高速度為每小時250公裡。當在設計為250公裡/小時或200公裡/小時的路線上行駛時,最大速度為200公裡/小時。

4. 直達特快旅客列車(Z字頭)

最高速度是每小時160公裡,鐵路系統的標準代碼是「直行時間」。其中大多數是整排軟座,少數汽車配備硬臥和硬座,只有一些汽車停在終點站所在的火車站和/或鐵路局內的大車站。這種火車是空調火車。

5. 特快旅客列車(T字頭)

最高時速140公裡,鐵路系統標準念法為「特**次」。跨局特快全程只停省會城市、副省級市和少量主要地級市等特大站或直達,管內特快全程一般只停地級市。此類列車為空調列車。

6. 快速旅客列車(K字頭)

最高時速120公裡,鐵路系統標準念法為「快**次」。全程停靠地級市類的中大站,也有少量直達的。此類列車95%以上為空調列車。其中K1-K2000為跨局列車,K7001-K9850為管內列車。

7. 普通旅客快車(普快)

範圍是1001-5998,即快速客運列車,停靠在縣級市和大多數縣級大中型車站,大約有40列這種類型的火車。其中,1001-1998是長途列車跨越3局或更多局的本地列車,2001-2998是跨越2局的列車,4001-5998是短途列車鐵路局內的本地列車。

8. 普通旅客列車

簡稱普客,或慢車,正規的說法中沒有「普慢」。範圍為6001-7598,停靠大部分可以停靠的站點。由於票價低廉,列車基本上「站站停」,很受沿線乘客喜愛。

9. 臨時旅客列車(L字頭)

在客流高峰期間運營的臨時快速客運列車停靠在縣級市和大多數縣級主要車站,鐵路系統的標準代碼為「臨時」。這種火車通常在春夏季和國慶節期間行駛。跨局臨時旅客列車通常沒有空調,這也被稱為「農民工專列」。

10. 旅遊列車(Y字頭)

只有極少數的旅遊列車使用這個數字,鐵路系統的標準代碼是「旅行時間」。其中Y1-Y498是局間列車,Y501-Y998是管內列車。

目前只有北京,天津存在這種列車,運行區間為北京北站~延慶站/沙城站,天津站/北站~寶坻/薊縣。

  • 動車組列車:一等座、二等座、部分列車有商務座;還有部分夜間運行的動車組列車有軟臥。
  • 直達特快列車:以軟臥為主,部分列車掛有硬臥和硬座或高級軟臥;
  • 特快列車:硬座、硬臥、軟臥、部分有高級軟臥或軟座;
  • 快速列車:硬座、硬臥、軟臥,很少一部分有軟座;
  • 臨時旅客列車、普通列車與快速列車基本相同;
  • 城際動車組列車:一等座、二等座;
  • 高速列車:一等座、二等座、商務座。

六、指標分析邏輯舉例

6.1 單個指標分析

頭等艙的多數有錢人;折扣票據的多是普通階層且提前有計劃的,或出遊的或定時出差的;當天往返或隔天往返的基本都是商務出行;節假日往返的多是旅遊或探親。

6.2 多指標分析

年齡+價格:低年齡+折扣票據屬於正常資質用戶層;低年齡+正常票價或頭等艙的不是富二代就是創業老闆;中年+折扣票據的或是旅遊客群或是普通階層;中年+正常票據屬正常階層;中年+頭等艙偏老闆階層(公務艙結合分析類似)。

往返地+身份證歸屬地:目的地與身份證歸屬地一致的,一般是回家探親的;出發地與身份證歸屬地一致的,一般是常駐城市(可結合出發地次數增強判斷)。

出行頻率+目的地:出行頻率高的,目的地基本一樣的,基本是商務出行,且屬於高端商務了,業務穩定的;出行頻率高,但目的地經常變換的,大部分是開拓市場的或者是經常出遊的。

另外,鐵路出行黑名單可用來判斷用戶失信行為,能出現在出行失信名單的用戶,證明在出行過程中有出現嚴重的不良行為,那保不準其在真實貸款後,會有不還款或者在催收環節惡意辱罵催收人員的行為。

只不過這部分人群數量過少,出行黑名單是從2018年下旬才逐漸按月公布,每期公布名單一般幾百到上千個失信人度等,當信貸公司每天幾萬幾十萬的調用過程,只為查詢這個幾千個航旅失信名單,實際應用價值不大,也會增加中間的查詢耗時,影響用戶體驗。

6.3 通過旅客周轉量及客流量做分析

2018年每月份全國鐵路旅客周轉量及客流量

2018年全國鐵路客流量為33.75億人次,旅客周轉量為14147億人公裡,人均運轉裡程為419公裡。

2017年全國鐵路客流量為30.84億人次。

2017年全國鐵路旅客周轉量為13457億人公裡。

2017年全國鐵路旅客人均運轉裡程為436公裡。

2018年一到十二月份全國鐵路主要指標完成情況表:

這個數據表可以根據當前建模溯源要求自行補充分析,主要是從月份周期中先定位大部分人群的出行目的、家鄉位置等,非特殊月份進行商務、出差、通勤的分析會更精確。另外出行人次及公裡數在給政府做人口遷徙流動決策分析時比較有用。

6.4 通過客運量做分析

2018年全國各大鐵路局的客運量排名:

NO.1 上海局(客運量:6.78億人;客票收入:768億元)2018年發送旅人人數6.78億人,(2017年6.28億人),同比增長7.8%。客票收入方面,2018年768億元,(2017年703億元),同比增長9.2%。

NO.2 廣州局(客運量:4.7億人;客票收入:579.5億元)2018年發送旅客人數4.7億人,(2017年4.134億人),同比增長13.7%。廣州局旅客發送人數增長量排第一,增長幅度排第5。客票收入方面,579.5億元,(2017年511億元),同比增長13.4%,增量第一,增幅第六。

NO.3 北京局(客運量:3.2億人;客票收入:456.7億元)2108年發送旅客3.2億人,(2017年3.07億人),同比增長4.3%;客票收入方面,456.7億元,(2017年430.7億元),同比增長6%。

NO.4 成都局(客運量:2.93億人;客票收入:289.3億元)2018年旅客發送人數,2.93億人,(2017年2.45億人),同比增長19.4%,增量排名與增幅排名均排第三位。客票收入方面:2018年收入289.3億元,(2017年222億元),同比增長30.2%,增幅排第三。

NO.5 瀋陽局(客運量:2.37億人;客票收入:185.5億元)2018年旅客發送人數2.37億人,(2017年2.35億人),同比增長1%;客票收入方面185.5億元,(2017年178.3億元),同比增長4%。

NO.6 南昌局(客運量:2.36億人;客票收入:230億元)2018年旅客發送人數2.36億人,(2017年2.22億),同比增長6.4%;客票收入方面,230億元,(2017年210億元),同比增長9.4%。

NO.7 武漢局(客運量:1.84億人;客票收入:212億元)2018年旅客發送人數1.84億人,(2017年1.76億人),同比增長4.5%;客票收入方面,212億元,(2017年193.7億元),同比增長9.5%。

NO.8 濟南局(客運量:1.46億人;客票收入:153.8億元)2018年旅客發送人數1.46億人,(2017年1.35億人),同比增長7.4%;客票收入方面,153.8億元,(2017年145.4億元),同比增長5.7%。

NO.9 鄭州局(客運量:1.35億人;客票收入:146.7億元)2018年旅客發送人數1.35億人,(2017年1.27億人),同比增長6.8%;客票收入方面,146.7億元,(2017年135億元),同比增長8.6%。

NO.10 南寧局(客運量:1.15億人;客票收入:99.4億元)2018年旅客發送人數1.15億人,(2017年1.03億人),同比增長12.1%;客票收入方面,99.4億元,(2017年86.6億元),同比增長14.7%。

NO.11 西安局(客運量:1.11億人;客票收入:126億元)2018年旅客發送人數1.11億人,(2017年9071.6萬人),同比增長22.6%,增幅全路第一,增量2054.7萬人,增量也排到了第4位;客票收入方面,126億元,(2017年96.4億元),同比增長30.6%,客票收入方面,西安局增幅同樣位居第一。

NO.12 哈爾濱局(客運量:1.1億人;客票收入:82.7億元)2018年旅客發送人數1.1億人,(2017年1.12億人),同比增長﹣1.3%,18個鐵路局裡面唯一一個負增長的鐵路局;客票收入方面,82.7億元,(2017年80.7億元),同比增長2.4%。

NO.13 太原局(客運量:7520.7萬人;客票收入:50.4億元)2018年旅客發送人數7520.7萬人,(2017年7313萬人),同比增長2.8%;客票收入方面,50.4億元,(2017年45.7億元),同比增長10.2%。

NO.14 蘭州局(客運量:6082.7萬人;客票收入:56.99億元)2018年旅客發送人數6082.7萬人,(2017年5006萬人),同比增長21.4%;客票收入方面,56.99億元,(2017年48.74億元),同比增長16.9%。

NO.15 昆明局(客運量:5463.5萬人;客票收入:56.9億元)2018年旅客發送人數5463.5萬人,(2017年4759.6萬人),同比增長14.7%;客票收入方面,56.9億元,(2017年43.6億元),同比增長30.5%,客票收入增幅排名第2。

NO.16 烏魯木齊局(客運量:3802.5萬人;客票收入:51.2億元)2018年旅客發送人數3802.5萬人,(2017年3557.9萬人),同比增長6.8%;客票收入方面,51.2億元,(2017年46.3億元),同比增長10.7%。

NO.17 呼和浩特局(客運量:3566.6萬人;客票收入:24.7億元)2018年旅客發送人數3566.6萬人,(2017年3467萬人),同比增長2.8%;客票收入方面,24.7億元,(2017年24.2億元),同比增長2.3%。

NO.18 青藏鐵路公司(客運量:1636.4萬人;客票收入:21.5億元)2018年旅客發送人數1636.4萬人,(2017年1480.3萬人),同比增長10.5%;客票收入方面,21.5億元,(2017年19.9億元),同比增長8.1%。

以上羅列的數據目的是找出鐵路出行頻率最高的城市集群,然後結合城市集群的經濟發展及就業工資分布,可以交叉獲取群體的資質能力。出行頻率不高的城市集群或者是線下金融機構可以考慮的布點選擇或者通過其他出行工具數據補充軌跡信息,獲取群體資質能力。

6.5 常住地界定

根據聯合國經濟和社會事務部統計司在《人口和住房普查原則與建議》中的建議,常住地可按照以下標準界定:

  1. 在最近12個月的大部分時間一直居住的地方,不包括因度假或工作引起的短暫出行;
  2. 至少在最近12個月一直居住的地方,不包括因度假或工作引起的短暫出行。

旅客出行一般是從常住地出發經過一個或多個目的地後返回常住地,完成一次出行。對於普通旅客,旅客在目的地的停留時間要遠小於在常住地停留的時間。鐵路出行數據可以描述旅客乘坐火車的出行軌跡,通過分析旅客的出行記軌跡、在目的地的停留時間,利用邏輯判斷、概率計算等方法可以判斷旅客每次出行的起點,從而可以利用旅客一年以上的出行數據推斷旅客的常住地。

基於出行數據識別常駐地:

利用鐵路旅客出行數據推斷常住地信息,受出行數據質量影響,影響因素主要有:

  • 出行次數過少:部分旅客在統計周期內的通過鐵路的出行次數過少,不能形成有效的出行迴路,無法在出行起點與出行終點之間確定常住地,這些旅客的常住地不能通過鐵路出行數據進行識別。
  • 行程不連續:綜合交通背景下,旅客可組合多種交通方式完成出行,導致鐵路出行數據在整個行程上是不連續的,該類型旅客需要結合其他交通方式的出行數據進行判斷。
  • 多出行起點:鐵路出行數據可能構成多個出行迴路,旅客出行時可能存在多個不同的出行起點,該情況下可選取比重最大的出行起點作為常住地。
  • 目的地最大停留時間:根據不同的出行目的,旅客在目的地的停留時間一般會有一個時間上限,當旅客在目的地的停留時間過長時旅客可能存在多個常住地,該情況有效無法識別旅客常住地。

七、用戶畫像系統鐵路公司對外應用場景

鐵路網際網路售票系統上線以來註冊用戶已經超過3.5億,乘車用戶超過8億,每天都產生海量的用戶行為日誌數據。隨著鐵路12306網際網路售票系統,站車WIFI運營服務、廣告平臺、網際網路訂餐等系統數據的不斷規範和收集,數據中已經囊括了鐵路客運多年的運營數據,包括對客票產品的清晰描述和定位、對旅客的行為收集可達「可視化」程度、對延伸產品的轉化的理解等方面,急需從平臺囊括的萬千數據中,借鑑當前網際網路產品的發展模式,找尋適合鐵路發展的數據增值應用,提高鐵路客運的整體效益和服務水平。

鐵路客運用戶畫像系統實現對全路局交通場景的信息以及延伸服務產生的數據進行交互、匯集、共享,通過數據清理和挖掘分析,為各種鐵路客運服務系統進行資源管理、分析與服務提供支持。同時,根據具體的客運業務系統的需要,進一步開發擴展支撐功能。

增值服務主要針對六個方面:核驗服務、精準營銷、業務預測、風險識別、徵信服務。它們都是構建在精準刻畫的用戶畫像的基礎之上,其往往存在目標人群定位不準確、輕視用戶行為兩個問題。而我們的目標是建立精準的「用戶畫像」,以來支撐構建出準確的用戶分群和利用機器學習算法構建的精準營銷(個性化推薦)系統、預測系統、風險識別系統、徵信服務系統等。

7.1 核驗服務

2015年年底央行發布的《非銀行支付機構網絡支付業務管理辦法》。這份新的非銀支付管理辦法於2016年7月1日起正式實施。其要求支付機構為客戶開立支付帳戶的,應當對客戶實行實名制管理[45]。

無論從保障消費者權益、防範非法活動、降低支付風險、促進行業發展等那個角度來看,第三方支付實名制都是一件利國利民的好事。但在推行和實施的過程中,無論監管機構,還是支付機構,如能更好的兼顧用戶體驗,才能把好事辦好。畢竟第三方支付行業勝在高效的支付效率和較低的用戶交易成本,而差的用戶體驗必然增加用戶交易成本甚至降低支付成功率。這無疑不利於仍然處於起步階段的網絡支付行業持續發展。

忙於響應監管、卻疏於兼顧用戶體驗,支付寶、微信支付等主流第三方支付平臺近期對於實名驗證流程的大步推進,也讓不少用戶不由叫苦。各第三方支付平臺急切需要簡化用戶核驗流程,在提高用戶體驗的情況下完成用戶的核驗,故需要藉助外部系統提供的核驗服務。

而鐵路為了保障鐵路旅客生命財產安全,維護旅客運輸秩序幾年前就開始實行實名制,旅客通過網際網路、電話等方式購票時,購票人需要提供真實準確的乘車人有效身份證件信息;取票時,應當提供乘車人的有效身份證件原件或者複印件。

目前鐵路網際網路售票系統註冊用戶突破3.5億,乘車旅客信息超過7個億,全部旅客信息都是通過實名制核驗的。所有的數據都是真實可靠的,所以鐵路客運用戶畫像系統可以對第三方服務平臺提供身份核驗服務,發揮鐵路旅客數據的價值,降低第三方支付平臺實名制實施的難度。

當然鐵路的身份核驗服務肯定不如公安部的身份核驗服務覆蓋率、準確性及時效性,對於一些非涉及資金及敏感信息的場景,鐵路的身份核驗服務可以使用。

7.2 精準營銷

對於網際網路的營銷原本就屬於數據驅動的領域,大數據更是提供了一個前所未有的機會,以大數據為基礎的智能營銷是行業發展的必然趨勢。

近幾年為了滿足旅客現代化、多元化、全行程、綜合性的出行服務需求,提高鐵路整體形象,按照「統一規劃、協同建設、分級管理、資源共享」的組織原則,建設鐵路客運延伸服務系統,開展餐飲服務、酒店預訂、旅遊預訂、定製服務、行程信息服務、站車商業、體驗店等圍繞旅客出行的業務服務和各業務銷售渠道的廣告管理業務。

隨著鐵路延伸服務的不斷完善,鐵路客運網際網路產品個數和種類快速增長,信息過載是鐵路客運大數據環境下最嚴重的問題之一。這種瀏覽大量無關的信息和產品過程,無疑會使淹沒在信息過載問題中的用戶不斷流失。

推薦系統作為有效緩解該問題的方法,受到工業界和學術界越來越多的關注。如何充分利用豐富的用戶反饋、社會化網絡等信息進一步提高推薦系統的性能和用戶滿意度,成為大數據環境下推薦系統的主要任務。用戶需要花費大量的時間才能找到自己想買的產品。

根據旅客的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。為了解決這些問題,鐵路客運用戶畫像系統需要構建個性化推薦系統。

該系統是建立在海量用戶畫像系統的應用數據挖掘基礎上,進行準確定位產品與用戶關係的智能服務系統,常見的算法有:協同過濾、基於內容的推薦、基於人口統計學的推薦,為了兼顧各個算法的優點,採用混合推薦算法,為鐵路延伸服務系統傳入不同推薦算法的推薦的產品列表,以幫助鐵路延伸服務為其用戶購買產品提供完全個性化的決策支持和信息服務。

7.3 業務預測

(1)旅客流量預測

鐵路以其運量大、速度快、低效能、汙染少、安全可靠等不可替代的優勢,逐漸成為了城市間公共客運系統的骨幹架構。然而,單一地考慮某一條線路的走向、站點位置,而未從全局整體規劃考慮,就不可避免的造成資源的浪費。

鐵路客運為了保持市場競爭力,實現利潤最大化,需要了解日常鐵路客運流量、淡旺季變動指數、冷熱門線路。其中,為了準確把握市場,需要對客流進行充分的了解和預測。

(2)餐飲服務預測大數據應用顯現出巨大的經濟價值。

正是由於餐飲行業競爭激烈而又利潤微薄,要想成功實屬不易,不少餐館開始轉向大數據以獲得競爭優勢。而對於餐飲業,大數據的關鍵在於數據分析的能力,有效的數據分析能力才可能產生高質量的結果。良好的數據資產將成為未來核心競爭力,一切皆可被數據化,鐵路客運系統目前服務的用戶量已超過7億,每天會產生大量的數據,這些數據的積累,有助於企業進行預測和決策。

基於鐵路客運用戶畫像系統收集的用戶行為數據,通過深入分析,用戶的基本信息、消費頻次、點菜口味、消費水平等都會被發現,並將其進行提煉,分析有助於企業進行預測和決策,並將其運用到餐飲行業「進、銷、存、管理運營」等四個重要節點。

(3)酒店服務預測

市場預測是酒店開展收益管理工作的基礎,其主要作用是為酒店收益管理人員獲取市場信息、掌握未來市場的需求變化情況,分析顧客的消費行為、實施客房預訂與存量控制,價格決策以及確定超訂量等提供必需的數據。同時,也為酒店管理者制定市場戰略和進行市場決策提供重要的參考依據。

(4)旅遊服務預測

旅遊行業是大數據應用前景最廣闊的行業之一,對用戶的行為分析,可以準確預知客流趨向,進而採取相應的措施疏導客流。可以知道遊客喜歡什麼樣的產品,進而開發建設適銷對路的產品;還可以知道遊客需要什麼樣的公共服務,進而改進旅遊公共服務。

通過鐵路客運的海量用戶行為數據,進行數據挖掘,可以準確的分析出旅遊的客源市場在哪裡、哪些產品是消費者關注的,這就為精準營銷提供了重要的數據支撐。

7.4 風險識別

(1)異常購票用戶識別

為了識別異常用戶主要使用兩種方案:用戶與客票系統交互日誌;用戶常用聯繫人之間的關係網絡。

用戶行為日誌作為鐵路網際網路售票系統提供服務過程中,用戶與系統交互過程中產生的有關用戶訪問行為的數據,日誌數據詳細描述用戶對網際網路售票系統的使用情況,通過對海量的購票日誌數據進行數據分析,挖掘並提取出用戶異常購票行為特徵,建立規則庫,根據規則識別出異常購票行為。

基於用戶的常用聯繫人構建關係網絡,識別出異常用戶的子拓撲圖,根據識別出的子拓撲圖在全量用戶及常用聯繫人的關係網絡中進行相似度計算,識別出危險性較高的用戶。

通過離線分析識別出異常購票行為和異常購票用戶的識別模型,當用戶在鐵路網際網路售票系統購票過程中,實時的收集該用戶的行為日誌數據以及基本數據(個人信息、常用聯繫人信息等),並與離線分析出的識別模型進行匹配,從而達到實時的管控和打擊黃牛黨刷票等行為的目的,維護了網際網路售票交易的公平性。

(2)羊毛黨識別

羊毛黨以多種形式存在於網絡裡。虛擬多臺電腦設備並使用IP欺騙的方式,用軟體同時控制多臺智能終端做為肉機,在社區軟體裡組成關聯群、招聘「兼職人員」等等,專業的羊毛黨可以用極低的成本獲取極高的收入,致使許多電商、O2O平臺損失慘重,甚至被搞垮。

運用技術手段,在註冊環節減少惡意軟體的入侵;提高領取門檻;完善用戶的信息審核,邀請用戶填寫仔細的個人資料,鎖定IP,設定最大閾值的註冊量,通過相關歷史數據,對已註冊用戶進行比對,通過規則對其進行識別等。

八、用戶畫像系統的應用

8.1 徵信服務

大數據的發展對徵信發展起到了非常大的促進作用,徵信最早起源於消費分期,沒有定量的描述。進入大數據時代,用戶的行為數據得到了沉澱和積累,可以使用機器學習和數據統計的模型來計算和評估用戶的信用,從而促進社會誠信建設的快速發展。

通過鐵路客運用戶畫像系統建設和機制安排,將旅客的購票、訂餐、酒店預訂、旅遊出行、廣告點擊等信息記錄下來,使之規範化、數位化、公開化,變無規律為有規律,變不可考為有證查,變不可知為能可知。

大數據徵信面對的是鐵路客運所有的旅客行為數據以及上千個維度的評價指標。為了對鐵路客運浩繁複雜的數據進行實時、自動的挖掘和計算,鐵路客運用戶畫像系統藉助網際網路、大數據、雲平臺等新技術,需要創建一套以全路數據挖掘、旅客信用計算、對外服務三大核心技術為支撐的大數據徵信模式,實現了旅客行為數據採集,行為信用計算的一體化和全自動化。不僅能夠為鐵路客運提供服務,也可以跟其他企業進行信用業務共享。

在金融風控及用戶分層場景,部分金融公司在建模過程也獲得不錯的反饋。特別一些P2P業務客群通過鐵路的標籤識別出相對優質的小部分客群,然後對這部分客群往銀行等優質金融場景導,其實也是在助貸業務做鋪墊。

8.2 用戶核驗系統

用戶核驗系統主要是根據鐵路客運用戶畫像系統計算出的用戶標籤為第三方提供用戶身份核驗服務,發揮鐵路旅客數據的價值,降低第三方支付平臺實名制實施的難度

設計用戶信用值計算模型。目前第三方軟體以「預付可提高排名」,「專享100M提速光纖」……為「噱頭」,吸引了大量的用戶藉助其進行購票,嚴重的影響了公平公正的購票環境,為了打擊非正常購票用戶,上線了風控系統。

然而目前風控系統只是根據用戶登錄IP更換頻率、設備指紋更換頻率、餘票查詢頻率、CDN地址更換頻率等角度實時的識別異常請求。海量的歷史數據還沒有進行更深一層的分析,還不能有效的挖掘出歷史數據的潛在的價值,後期可以根據用戶畫像系統提供的用戶的行為特徵數據,設計用戶購票信用值模型,預測用戶惡意購票的指數,並對接風控系統實現異常用戶識別的模型,同時從離線和實時兩個方面更加高效的識別異常用戶。

九、鐵路數據應用場景及價值

以下圍繞鐵路數據在社會及經濟2個維度,簡單羅列相應的應用場景供參考。

9.1 社會價值

(1)為政府部門提供宏觀經濟分析報告

鐵路客流大數據及貨運大數據均體現覆蓋區域的人口流動及經濟變動情況,形成全國或區域化的宏觀經濟分析報告,可為政府部門提供全國及區域經濟變動情況,輔助政府部門實施更精確的宏觀經濟調控策略及手段。

(2)與執法部門實現聯防聯控

鐵路大數據已覆蓋全國超過8億的人口,是人民群眾出行的主要交通工具,因此鐵路部門可以與執法部門聯通,聯防聯控,及時發現犯罪分子的蹤跡,實現快速精確打擊抓捕犯罪分子的目的,保障鐵路出行安全及社會穩定。

(3)助力智慧城市的發展

通過對鐵路大數據的挖掘分析及提取,通過XXX打通各部委數據,打造適合智慧城市需求的數據產品,助力智慧城市的發展,實現對城市的精細化和智能化管理,從而減少資源消耗,降低環境汙染,解決交通擁堵,消除安全隱患,最終實現城市的可持續發展。

(4)打造包括鐵路、高速、國道及海事等全面的交通運輸信用體系

通過整合共享公路建設、水運工程建設、道路運輸、水路運輸、安全生產、海事執法,以及鐵路、民航、郵政等領域的信用信息,與全國信用信息共享平臺、國家企業信用信息公示系統等國家級平臺進行對接共享。推動獎懲信息在行政許可、招標投標等業務系統中的應用,加快構建「守信者無事不擾,失信者利劍高懸」的獎懲格局。

(5)打造鐵路智慧供應鏈,支撐實現貨運跨界收益

鐵路智慧供應鏈利用鐵路物流平臺,實現上下遊供應鏈及並行的商貿或生產供應鏈間的資源配置優化,促進物流服務產業鏈直接相關的商貿及供應鏈金融服務體系融合,並將通過「運貿融一體化」來獲取跨界收益。

(6)為優化交通接駁設施提供決策支持

不同區域、不同季節、不同時間的鐵路客運量是不一樣的,針對鐵路客運數據的統計分析,為各站點所在城市的交通部門提供交通接駁設施安排及規劃,為乘客帶來從鐵路出口直達城區中心或各景點區域地帶的無縫連結交通乘坐體驗。

(7)為打造旅遊景點選址提供鐵路熱力數據支持

政府或投資機構可以選擇全國鐵路乘客熱力數據,從人口集中遊玩的區域中挖掘適合打造新的旅遊景點的數據支撐,或者為擴充景點區域提供可靠遊客流量數據支撐。

(8)為政府實現流動人口監測提供人口流動數據做參考

外來人口大部分都是通過鐵路運輸實現的,特別是長距離遷徙。而外來人口是各個城市都需要重點關注的,不管是短期遊玩還是長期居住。因此鐵路的客流數據可以提前告知各個城市監管部門,提前做好外來人口的流動監控。

(9)為物流園區科學布點規劃提供運力數據參考

鐵路歷年貨運數據可以支撐貨運起始地、中轉地及目的地三地的物流園區選擇,實現鐵轉路或路轉鐵的運力調配最優,降低運輸鏈條上各企業的物流運輸成本,提高裝卸貨及運輸的效率。

(10)為物流公司提供鐵路運輸信用體系的不良運輸企業名單,降低合作風險

鐵路運輸體系中涉及的關聯運輸企業數量眾多,這個合作過程中產生的不良運輸企業名單,可以為各物流公司在選擇合作夥伴時及時發現潛在風險,降低合作後的損失。

(11)為商業車險保費定價提供相關決策支持

商車保費定價中行駛裡程、約定行駛區域、車型、投保車輛數、絕對免賠額等都會影響其定價,與鐵路貨運長期合作的車輛行駛區域相對穩定,裡程也比較清晰,有利於車險公司實現更精確的車險保費定價。

9.2 經濟價值

(1)為保險機構提供經營決策支持

保險機構根據存量客群在保險機構及鐵路場景的活躍度,根據年齡、性別、艙位等級、頻次及出發到達地點等維度,打造不同保費、保額及保期的出行意外險甚至健康險或壽險等,實現千人千面千險的產品創新,滿足不同保險客群的實際保障需求。

根據中國銀保監會發布的2018年保險數據統計報告顯示,2018年保險業新增保單件數290.72億件,同比增長66.13%。其中,壽險本年新增累計保單0.89億件;健康險32.01億件,增長417.28%;意外險64.99億件,增長168.51%。

壽險、健康險及意外險年新增保單約98億件,均主要是與人相關的險種,因此在做營銷畫像可藉助鐵路大數據達到更好的效果。假設保險機構20%的客戶是通過鐵路大數據優化經營決策轉化的,每次調用接口費用3元,則可為中鐵帶來58.8億元的年收入規模(鐵路大數據單次使用總費用按3元,以下例子同理)。

(2)滿足保險機構投保反欺詐需求

保險反欺詐主要針對車險及壽險產品,通過對鐵路大數據各維度的挖掘,結合外部風險數據,綜合判斷新增投保及存量續保客戶是否有投保欺詐行為的潛在風險。

而2018年壽險本年新增累計保單0.89億件,車險4.48億件,假設其中20%的保單的反欺詐是通過鐵路大數據實現的,則可為中鐵帶來3.2億元的年收入規模。

(3)為旅遊機構提供經營決策支持

2018年國內旅遊55.39億人次,而國家鐵路旅客發送量完成33.17億人次。鐵路旅客人次少於旅遊人次,則可以鐵路人次數據作為評估標準。假設鐵路人次中有80%是通過鐵路出行旅遊的(剩下20%為非旅遊需求),則也有26.5億人次,其中平臺20%的用戶通過通過鐵路大數據優化經營決策轉化的,則可以帶來15.9億元的年收入規模。

(4)為銀行機構提供經營決策支持

隨著居民可支配結餘資金的穩定增長,國人們對理財的潛在需求在持續提升。同時,網際網路網民人數穩定增長以及支付技術的快速發展等為網際網路理財的發展提供了基礎。

截至2018年12月,我國購買網際網路理財產品的網民規模達1.51億,則各大平臺需要對共15億的註冊用戶進行資質分層才能知道哪些是優質客群(轉化率按照10%反推計算註冊用戶數量),則可為中鐵帶來45億的年收入規模。

(5)為電商平臺提供經營決策支持

截至2018年12月,我國網民規模為8.29億,假設電商平臺用戶基本覆蓋網民,則電商平臺用戶總數也為8.29億元,如每人每年需要消費一次,電商平臺需要對這些用戶進行資質分層,判斷該向平臺用戶推送什麼產品。假設平臺20%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來近5億的年收入規模。

(6)為教育機構提供經營決策支持

2013年至2017年,畢業生總數從700萬人增至800萬人,年複合增長率為3.3%,並將於2022年達到930萬人。不斷增長的高校畢業生總數使其求職競爭更加激烈,畢業生們對職業技能培訓的需求增加。

截至2018年上半年,在線教育人數達1.72億,按照年30%的增長率,新增部分人數是通過鐵路大數據優化經營決策轉化的,則可帶來1.5億元的年收入規模。

(7)為酒店平臺提供經營決策支持

截至2018年12月,在線旅行預訂用戶規模達4.10億,較2017年底增長3423萬,增長率為9.1%,佔網民整體比例達49.5%。網上預訂機票、酒店、火車票和旅遊度假產品的網民比例分別為27.5%、30.3%、42.7%和14.5%。則酒店在線預訂用戶數量有近1.24億人,假設其中平臺30%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來1.1億元的年收入規模。

(8)為網約車平臺提供經營決策支持

截至2018年12月,我國網約計程車用戶規模達3.30億,假設其中平臺30%的用戶通過鐵路大數據優化經營決策轉化的,則可帶來2.97億元的年收入規模。

十、結語

除了以上場景外,現在使用數據比較成熟也比較願意花錢的,其實都是金融或與金融相關的風控場景、然後才是營銷獲客的客戶分層場景。而風控場景除了公安、銀聯、運營商及設備數據算是比較易得及實現比較多外,包括鐵路數據這些國有數據,99%的風控人員都基本沒接觸過,更別說運用在風控建模上了。

而現在大數據行業的發展已經是國家重點推進的,因此可用的數據維度其實會越來越多,不僅風控人員不僅需要時刻關注,並了解更多新的有效數據。各行各業與數據相關的其實都需要關注不同數據的應用邏輯,保持數據應用敏感度,這才可以將可得數據在合規的前提最快的應用起來,不管對內還是對外。

主要參考材料:

  1. 基於出行全過程的旅客城市群出行方式選擇,研究基於大數據的鐵路客運用戶畫像系統研究及應用
  2. 基於計劃行為學的旅客中長距離出行方式選擇行為研究
  3. 基於客票特徵數據的我國高速鐵路旅客出行行為分析研究
  4. 基於鐵路出行數據的旅客常住地智能識別算法研究
  5. 其他網上公開相關材料

相關焦點

  • 互金爬蟲大清洗!多公司及助貸業務被迫暫停 風控服務商遭重創
    大數據智能風控安全風暴驟起,後續影響仍在發酵。「監管這次下了狠手要規範行業,部分與現金貸行業聯繫較強的大數據公司及助貸平臺已經暫定做業務了,有些消費金融公司也縮減了業務規模。」華東地區一家大數據公司負責人表示。
  • 拍拍貸華麗轉身背後:被控坑騙同行,190萬用戶數據疑似洩露
    這其中,也包括號稱中國第一家P2P網貸平臺的拍拍貸。截至2019年9月30日,拍拍貸旗下P2P平臺的借貸餘額為121億元,網站自動投標服務的最新產品起息時間停留在9月14日,距今已1個多月。拍拍貸官網數據顯示,其9月份撮合的借貸總額為71.6億元,來自個人的資金規模為1.8億元,機構資金佔比超過97%。從直觀數據來看,拍拍貸似乎已完成從網貸平臺到助貸平臺的華麗轉身。
  • 讓「爬蟲」不再肆行無忌 多家大數據公司及助貸平臺業務暫停
    原標題:讓「爬蟲」不再肆行無忌 多家大數據公司及助貸平臺業務暫停深圳特區報2019年9月20日訊 大數據與金融行業的關係越來越密切,然而以「爬蟲」手段違規抓取和使用個人信用信息的行為就應被「亮紅燈」。
  • 3分鐘讀懂網際網路金融風控的應用場景及風控手段
    網際網路風控的應用場景隨著網際網路金融消費場景的日益繁多,消費群體的逐漸壯大,網際網路金融風控在P2P網貸、支付、理財等多個領域得到了高度的重視,在徵信評估、反欺詐、預警監控方面得到了很好的應用:1) 徵信評估:在業務發生前,依據廣泛收集的數據,利用大數據、人工智慧等先進技術,藉助網際網路金融企業建立的風控模型,為企業自身或其他金融相關企業提供快速
  • 立足大數據,發力風控:魔蠍科技魔杖2.0、魔分體系上線
    近日,專注於提供用戶授權場景下的一站式SaaS工具魔蠍科技宣布上線核心風控產品並發布魔杖2.0和魔分系列產品。據悉,魔蠍科技成立於2016年1月,其憑藉不斷更新的用戶授權數據和數億級數據調用,結合機器學習和精準的模型服務,提供精準營銷模型、反欺詐、多維度用戶畫像、授信評分、貸後預警、催收智能運籌等全面風險管理服務。
  • 訂煙數據撕開新藍海:各路資本湧入菸草貸
    金融機構提供菸草貸款資金,第三方平臺助貸機構提供獲客、風控等服務,這一部分往往是一些數據服務商來充當第三方,它們收集、處理用戶的訂煙檔位、近1年月平均交易筆數等等信息。 根據根據零壹研究院院長於百程介紹,菸草零售商數量非常大,同時業務具有地域性,開展此類金融業務首先需要獲取類似「新商盟」平臺的經營數據支持和營銷支持,同時結合其他風控手段,防止騙貸和過度授信。 在菸草貸這一業務中,除了資金方與菸草商之外,也出現了導流、風控的第三方平臺。
  • 風控策略產品經理:金融風控的業務規則、策略模型(認知)
    金融風控模型體系的認知一般來說,從上上面看整個系統流程圖,可以知道的是:風控模型貫穿獲客、準入、經營、逾期的整個客戶生命周期。所以,按消費金融類產品而言,大範圍通用的手段:是可以根據用戶生命周期的不同階段,可將風控模型分為貸前信用風險模型、貸中行為風險模型、欺詐檢測及貸後催收模型。
  • 楊立恆:雲蜂科技是實戰派大數據風控服務商
    第一個痛點,雲蜂科技服務的小微信貸、現金貸平臺的獲客(註冊用戶)成本非常高,這個獲客成本從大概一個客戶十塊錢到一百塊錢不等。同時另一個很大的問題,各家平臺都有不同的獲客渠道,而這個質量也是參差不齊的。比如說從大眾點評獲得流量、從暴風影音或者從樂視獲得流量吸引來的客戶質量都是不一樣的,profile也完全不一樣。第二個痛點來說,整個行業的風控成本其實非常高。
  • 專訪360數科CEO吳海生:緩解小微企融資難,大數據風控是重要抓手 |...
    通過創新實踐,360數科發現大數據風控是破解小微企業融資難、融資貴的重要抓手。「依託360集團先進的網際網路安全技術,以數據驅動,通過對財務、發票、流水、司法等多個企業經營數據渠道的對接,就可以搭建起較為清晰的企業客戶畫像,再應用人工智慧技術建立起對風險系統、動態的管理。」吳海生稱。
  • 兩家大數據風控頭部公司被警方認定為非法獲利
    近日央視推出了公安系統打擊套路貸的專題報導,此前公安部通報的多家大數據風控公司均被點名。 據警方透露,涉案的上海某數據公司,自2016年7月以來,利用非法獲取的公民個人信息,為各種商戶提供13億餘次服務,非法獲利1億餘元。
  • 螞蟻金服、陸金所、京東金融的風控模型有什麼不同?
    貸前、貸中、貸後等方方面面的監控,貸前最為重要,如何去檢測,抓取哪些數據,與哪些第三方平臺合作)1.1.5 人工智慧技術螞蟻金服通過大數據挖掘和語義分析技術來實現問題的自動判斷和預測。可以識別到用戶的身份信息,總結在大的用戶層面大家可能都會遇到的問題,100%的自動語音識別。
  • 大數據風控 防騙機器人護航金融機構
    8月23日,2018中國國際智能產業博覽會(簡稱智博會)將開幕。作為本屆智博會合作夥伴及區塊鏈創新發展論壇支持單位的重慶小雨點小額貸款有限公司,將在本屆智博會帶來小雨嘀、小雨鹿等應用於信貸大數據分析的「黑科技」產品。
  • 「數據助貸」來了,汽車租賃公司憑經營數據可輕鬆獲貸!
    深駕「數據助貸」服務上線,用SaaS補足了中小汽車租賃公司徵信數據缺失的短板,為汽車金融服務流程中的各參與方有效建立互信關係。深駕與成都小企業融資擔保有限責任公司、交通部旗下國交信息股份有限公司達成戰略合作,牽手民生銀行、成都銀行、貴陽銀行等多家銀行,並與共同為汽車租賃融資提供數據化的解決方案。
  • 如何迎接智能風控時代?
    大勢所趨  金融機構兩個核心的價值,一個是營銷能力;另一個是風控能力。同盾科技創始人、CEO蔣韜日前在接受中國經濟時報記者採訪時表示,智能風控要解決的問題,在本質上就是如何更精準地去分析、預測欺詐及信用風險。與此同時,金融機構的智能化應用場景還包括智能投顧、智能催收以及智能理財等。
  • 「助貸機構」是啥意思?今天正經科普下
    2007年,市場上開始出現針對這種小額信貸業務,銀行+小貸公司的合作模式,因為資金有限,就是銀行出錢,小貸機構出力,負責找客戶、風控什麼的。開始的時候,很多銀行以及其他資金方,很樂意這樣去做,反正助貸機構去找客戶、去審核、去風控、去催收,我就只提供錢,後期有客戶不還錢,我就從你的保證金裡面扣,真的是超級快活啊。 這個時候,銀行確實省力省心,躺著賺錢嘛。
  • 微粒貸、支付寶、鳳凰金融等榮獲「2019胡潤新金融最佳用戶體驗獎」
    以智能科技 推動金融產品創新從支付寶領銜打造的「無現金社會」到微粒貸率先推出的「僅憑個人信用、無需擔保;循環授信、隨借隨還」個人信貸產品,均給用戶帶來了大幅度使用體驗提升,金融產品的背後是新金融企業在人工智慧、大數據等金融科技領域的研發布局。
  • 4萬字長篇,詳解平安集團全生態布局及大數據業務應用研究(含前海...
    本文主要圍繞平安集團30年來的布局呈現到現今的效果——8億數據量級、4.86億的網際網路用戶、近10億的風控產品調用量及旗下各機構的用戶數據的獲取及組成來談,希望讀者可以通過這些數據價值的各個點融進下文平安集團布局中,理解各布局各類數據對應哪些關鍵點。
  • 大數據公司、貸款超市相繼被查 現金貸產業鏈迎來全面清洗
    來源:華夏時報華夏時報(chinatimes.net.cn)記者朱丹丹 單美琪 北京報導近段時間,繼大數據、風控、催收等平臺被查之後,導流業務也迎來嚴格監管。日前,行業的一家大數據風控服務商同盾科技也被傳出爬虫部門解散,該部門員工集體待崗等消息。9月16日,杭州大數據公司同盾科技有限公司已解散其爬虫部門,該部門員工集體待崗。同盾科技方面明確表示,涉及爬蟲技術的產品「數聚魔盒」為子公司信川科技獨立運營產品,有嚴格授權要求。根據同盾科技聲明,目前信川科技已停止相關服務,員工已調崗,處於正常工作狀態。
  • 傍上7億流量大佬,外貿信託大水漫灌現金貸,老哥直呼風控策略看不懂
    節後放水現金貸  新年過後,有借款人告訴互金商業評論,中國移動旗下的和包貸有一款貸款產品「和悅貸」大放水,風控比較松,他在3年前曾有過多次房貸、信用卡逾期,但仍然拿到了1萬元的額度,申請後15分鐘即到帳,資金方顯示為外貿信託。
  • 招聯金融現風控漏洞 用戶頻頻「被貸款」
    風控是金融的核心,風控不解決好,用戶的資金安全便得不到保障,在用戶頻頻「被貸款」的情況下,招聯金融該如何很好地解決風控難題?