上海聯通大數據與機器學習驅動的離網預測模型

2020-12-25 CSDN技術社區

電信運營商提供基礎通信管道連接每一位用戶。每天數以億計的用戶會在管道中留下通信行為數據,構成運營商大數據。如何挖掘大數據來智能支撐運營商各項業務並進行業務轉型是一個需要深入思考的問題。本文主要介紹如何利用大數據與機器學習來支撐用戶離網管理

隨著通信行業競爭日益激烈,每月都有大量的用戶離網,即不再使用運營商的通信服務。圖1展示的是上海聯通近一年預付費用戶流失率統計。從圖中可以看出預付費用戶由於沒有綁定合約 ,流失率比後付費用戶要高很多 ,平均每月有大約9.4%的預付費用戶 流失,導致營收大幅下降。此外,吸引 新用戶入網的成本要比維繫挽留有離網傾向用戶的成本要高大約 3倍,因此使用數據挖掘方法進行離網預測,穩定在網用戶數是一項至關重要的任務。本文驗證了使用運營商大數據能顯著提高離網預測精。上海聯通對高離網傾向用戶進行維挽活動 ,有效降低離網率。由於預付費離網用戶基數龐 ,每降低1%離網率,就能每年額外獲得數百萬元 營收。同時,通過大數據驅動的離網預測模型,我們還回答了關 於大數據的三個科學問題:

  • Volume:是不是訓練數據量越大,預測模型精度越
  • Variety:是不是特徵種類越多,預測模型精度越
  • Velocity:是不是訓練數據更新越快,預測模型精度 越高


圖1  預付費/後付費用戶流失率統計圖

運營商大數據平臺

在大數據時代,如果把數據比作黃金的話,那麼運營商就是一座大金礦,每天都會產生TB(Terabyte)級別的數據。我們使用的運營商數據大致來自兩個系統,BSS(業務支持系統)和OSS(運營支持系統)。BSS是運營商向用戶開展業務的主要IT組成部分。OSS是電信服務提供商用來管理通信網絡的系統。

通常,這兩個系統分開獨立工作並產生自己的數據 大數據平臺把兩個獨立系統的數據整合起來支撐數據驅動的運營業務決策。BSS的數據主要分為四個部分:用戶信息/行為數據(User Base/Behavior)、投訴數據(Compliant)、帳單數據(Billing)和通話/簡訊數據(Voice/SMS CDR)。這些數據涵蓋了用戶個人的信息、通話行為(包括通話連接基站號、通話時間和時長等)、簡訊行為、消費情況、帳戶情況、投訴行為等等。每天BSS能夠新生成大約20GB數據。OSS的數據大致可以分為三塊:電路交換數據(Circuit Switch,CS)、分組交換數據(Package Switch,PS)和測量報告數據(Measurement Report,MR)。CS數據描述的是用戶的通話質量,比如掉話率、通話連接的成功率等。PS數據通常也被叫做MBB數據(Mobile BroadBand),它描述了用戶連接網絡的情況,比如上網速度、連接成功率和移動搜索文本信息等。MR數據來自無線電網絡控制器(Radio NetworkController,RNC),這些數據可以用來粗略的給用戶定位,獲知用戶運動的軌跡。每天OSS產生大約2TB數據,超過大數據平臺存儲數據的90%。除了BSS和OSS數據,我們還用爬蟲獲取了一些網際網路數據,比如地圖數據和一些社交網絡數據進行整合。


圖2  大數據平臺架構圖

圖2展示的是運營商大數據平臺的整體架構。我們將原始數據存儲在了Hadoop分布式文件系統中(HDFS)。然後再用Hive和Spark進行特徵生成和處理工作。這些構成了數據層(DataLayer),負責定期收集更新來自 BSS和OSS的數據表。數據層通過數據總線連接到能力 (CapabilityLayer ),我們在能力層構建了兩種不同的模 ,業務部分和網絡部分 。通過設計和業務相關的特徵加上數據挖掘和機器學習算法 ,能力層不但能夠支持內部應用 (比如精準營銷、維挽用戶和網絡優化等 ),還能支持一些外部應用(比如數據開放等)。本文介紹由大數據驅動的離網預測模型屬於應用層 (Application Layer ),圖2用紅色的虛線標明與數據層和能力層的關係。

離網預測模型


圖3  離網預測和維挽系統

離網預測模型的流程結構如圖3所。(1)HDFS和Spark負責原始數據的存儲和管理。(2)特徵工程模塊將原始數據處理成和離網相關的結構化特徵,用作分類器的輸入。(3)利用分類器訓練出來的模型預測未來有離網傾向的用戶,按照離網傾向高低排名,根據這個名單進行個性化維挽。(4)將用戶維挽的結果反饋到模型中形成閉環,不斷提高模型預測容易維挽的離網用戶精度。模型主要分為了三個主要模塊:訓練/驗證數據標註、特徵工程和分類器學習。其中最重要的是特徵工程模塊,當然其他兩個模塊也會影響最後的結果,下面就從這三個方面來分別闡述我們的工作。


圖4  預付費用戶進入充值期後充值時間分布圖

訓練/測試數據標註

據標註因為與需求直接掛鈎,所以是數據挖掘中非常重要的一步。如果訓練數據標註出現錯誤,那麼分類器精度再高也無法滿足最初的需求。在離網問題,我們需要在歷史記錄中找出所有離網的用戶,並標註為1,其餘的在網用戶標註為0,這樣離網預測問題就轉化為一個二值分類問題。圖4顯示一年內預付費用戶進入充值期(欠費)後充值時間的分布。圖中橫軸表示預付費用戶進入充值期後再充值的天數,縱軸表示用戶的人數。從圖中可以觀察出以上的在網預付 費用戶在欠費後15天內就會再充值(即在網用戶)。因 ,如果預付費用戶欠費15天內還未充值 ,那麼該用戶就可以被定義為離網用戶

特徵工程

根據數據的特點不同,所設計的特徵可以被分成三部分:基本特徵、CS特徵、PS特徵。其中,基本特徵主要從BSS數據中抽取,之前很多的離網預測研究都僅使用了來自BSS數據的基本特徵,例如帳戶餘額、通話頻率、充值金額、投訴頻率等記錄。與基本特徵不同,CS特徵和PS特徵都從OSS數據中抽取。我們選取了幾種具有代表性的上網/語音質量特徵和用戶位置特徵,比如平均數據上傳/下載速率、最經常出現的位置 (通過MR數據獲得 )等。此外,我們還利用一些非監督和半監督算法從原始數據中生成一些比較複雜的特 。基於圖的特徵、主題特徵、二階特徵。對每個用戶都生成一個維度的特徵向量

圖特徵

用戶是否離網可能受周圍人的影響,因此我們可以通過用戶之間的關係來挖掘出離網傾向。我們構建三個無向圖包括通話圖、簡訊圖和共同位置圖(同時出現在一個位置)。其中每個用戶是一個節點,用戶之間邊的權重代表他們聯繫的強弱。例如,通話圖邊上的權重就是兩個人在一段時間內(比如一個月)相互通話時間的總和。我們規定用戶之間一定要相互通話過才能有邊相連,這是為了排除一些推銷和騷擾電話(單向邊)的影響。我們用Hive/Spark SQL生成了上面描述的無向圖,用係數矩陣ε表示,ε={wm,n≠0}。基於這個無向圖 ,我們使用PageRank和 Label Propagation 算法各自生成一維特徵 。由於傳統PageRank算法的邊並沒有權重,我們使用了加權的 PageRank 算法。Label Propagation算法將離網用戶標注通過無向圖邊的權重向在網用戶傳遞

主題特徵

用戶在投訴和移動搜索中能夠產生很多文本數據,從文本信息中也能挖掘出有價值的特徵。在一段時間內 (比如一個月),每個用戶可以被認為是一篇文檔 文檔中是他的投訴 紀錄或者是搜索關鍵字。依據詞袋 (BagofWords )文檔中單詞認為是無序的,去掉一些無意思的詞後,我們將投訴和搜索內容分別構建了大小為 2408和15974的單詞表。由於這個矩陣是高維稀疏矩陣,不適合直接作為特徵加入我們的分類器。因此我們用概率主題建模算法 LDA(Latent Dirichlet Allocation )從高維稀疏矩陣獲取低維稠密特徵,在人工設定主題數 K後,算法能夠把每個用戶高維的特徵變成 K維。

二階特徵

在設計完全部的單項特徵後,我們又在此基礎上對單項特徵進行組合。原來的特徵向量為Xm={x1,x2,…,xi,… ,xN},二階組合特徵定義為 xixj,這可以幫助我們發現 特徵之間的隱含關係。如果把這些二階的特徵全部加入的話會使特徵向量的維度變得很大,因此我們使用LIBFM 模型來選擇在模型中權重貢獻最大的前20個二階特徵

分類器

我們使用隨機森林模型作為分類器,這是目前被廣泛使用的幾種分類器中預測性能較好,同時適合大規模並行運算,能夠快速學習稠密的特徵向量。隨機森林是由許多棵在特徵子空間中構建的決策樹組成的集合,每棵決策樹是一個子分類器,隨機森林平均所有子分類器的預測結果作為最終的預測結果。對於每一個待預測的用戶,隨機森林能夠給出離網概率(也就是該用戶標註為1的概率)。隨機森林還能根據信息增益計算出每個特徵的重要性排名,方便我們對特徵進行評估,改進之前設計的特徵。

實驗結果

利用搭建的運營商大數據平臺,我們驗證了大數據3V特性能夠顯著提高離網預測的精度。下面會從Volume、Variety、Velocity三個方面驗證我們得出的結。預測精度採用數據挖掘常用的Recall、Precision、AUC和Precision-RecallAUC指標衡量。其中,對預測離網概率從大到小排序首個用戶計算Recall和Precision。



圖5 增加訓練數據量使得預測精度逐步提高

圖5回答了關於大數據的第一個問題:是不是訓練數據量越大,預測模型的精度越高?這個實驗的訓練集用的是1-6個月的數,測試集選用第個7月。一共進行6次實驗,每次都比前一次多用一個月的訓練數據。為了保證實驗的準確性,我們採用滑動窗口方式,又重復做了兩組(第二次選用2-7月做訓練集,第8個月數據做測試集),將三次得到的結果取平均值。實驗結果如圖5所示,可以看到在訓練數據量增加到初始的4倍,預測精度還在不斷上升。這個實驗也說明了訓練數據量的增多確實能夠提高預測的精度。

表1  增加數據種類實驗結果(U=2x105)


表1回答了關於大數據的第二個問題,是否加大抽取特徵的多樣性,預測模型的精度就越高 。每一種特徵哪怕只提供很少關於預測結果的信息 ,累積起來也能增強模型的預測精度 。實驗中,我們把之前提及的特徵分為大類 :F1)BSS特徵;F2)CS特徵;F3)PS特 ;F4)通話網圖特徵;F5)簡訊圖特徵;F6)共現圖 特徵;F7 )主題特徵(投訴);F8 )主體特徵(移動搜 );F9)二階特徵。實驗共做7組(選取不同月份,與上面的實驗類似 ),取結果的平均值。每組實驗先只用F1做基本特徵,然後再用F1+F2,F1+F3,…,F 1+F9,分別得到9組預測結果,最後將後8次預測精度 與第1次比較。實驗結果如 1所示,加大特徵多樣 性能夠顯著提升模型預測精度

表2 加快數據更新實驗結果(U=2x105)


表2回答了關於大數據的最後一個問題:是不是訓練數 據越新(處理速度越快),預測模型精度越高?這個問題用到離網預測模型也可以換種說法:需要多久用新來的數據更新分類器 ,從而使能模型能夠更好地捕捉用戶的離網行為?為了驗證這個問題,我們分別用用戶 5天前、10天前、20天前和30天前的一個月數據來預測該用戶接下來 30天是否會離網。實驗結果如表3所。我們發現模型更新時間間隔越小,也就是訓練數據更新速度越快 ,預測精度越高。但是,預測 精度提高的幅度遠遠沒有之前加大訓練數據量和增加特徵多樣性那樣顯著

表3  大數據驅動的離網預測模型最終性能


表3總結了大數據驅動的離網預測模型綜合表現,採4個月的訓練數據,所有從BSS和OSS數據抽取的特徵,模型更新速度是30天。該模型在前5萬最高離網概率用戶的預測精度接近0.96,在前30萬最高離網概率用戶的預測精度超過0.5,滿足商用要求,為維繫挽留用戶提供了較好的決策依據

結論

本文從大數據3V的角度重新探索經典的離網預測問,展現了大數據的威力,訓練數據的總量、多樣性和更新速度確實能夠顯著提升預測精度。其中,3V中的多樣性(Variety)起了最主要的作用,促使我們重OSS數據的挖掘,而之前的研究主要集中於易於獲得的BSS數據,對OSS數據並沒有很好地利用。OSS數據量的龐大並有較高的潛在商業價值,如果能對OSS數據進行有效的開發,必將給運營商帶來持續的收。本文中,我們整合BSS和OSS數據特徵,並取得較好的離網預測效果也證明了這一點。最後,感謝蘇州大學計算機科學與技術學院兩位同學黃一清和朱方舟實現並調試離網預測模型的原型

作者簡介:

沈可,上海聯通副總經理,大數據資深專家,多年從事運營商大數據跨業應用研究,作為上海市委宣傳部特聘講師,常年對各政府機關和企事業單位講授大數據應用相關課程,並與華為聯合組建大數據應用創新實驗室。

劉志剛,上海聯通網際網路與存量經營部總經理,運營商大數據系統架構搭建和大數據跨行業應用專家,領導上海聯通大數據能力建設,並與華為聯合組建大數據應用創新實驗室。

姚健,上海聯通網際網路與存量經營部大數據處經理,從事大數據應用項目管理和前瞻性研究,帶領團隊實施上海聯通存量經營大數據應用項目,實現運營商內部存量經營運營效率提升。

袁明軒,香港科技大學博士,華為諾亞方舟實驗室大數據科學家。主要研究領域包括電信/時空大數據管理、挖掘與隱私保護。

曾嘉,香港城市大學博士,華為諾亞方舟實驗室大數據科學家。主要研究領域包括電信大數據平臺、挖掘算法與數據產品的商業變現。

(責任編輯/周建丁)


【預告】 

2015中國人工智慧大會(CCAI 2015)

將於7月26-27日在北京友誼賓館召開。機器學習與模式識別、大數據的機遇與挑戰、人工智慧與認知科學、智慧機器人四個主題專家雲集。

人工智慧產品庫

將同步上線,預約諮詢:QQ:1192936057。歡迎關注。 

本文為《程式設計師》原創文章,未經允許不得轉載,如需轉載請聯繫market#csdn.net(#換成@)

相關焦點

  • 當模型預測控制遇見機器學習
    最近幾年,人工智慧和機器學習受到了各行各業的熱捧,已經不再是計算機科學系(CS)的「專利」,甚至連我這個傳統的機械工程系(ME)研究生都跑來湊了個熱鬧。本文將不使用任何讓人敬而遠之的公式,試圖通過自然語言深入淺出的討論,當模型預測控制遇見機器學習,它們會擦出怎樣的思想火花。
  • OpML 2019提前看:模型表現預測與分布式機器學習
    2)文章背景介紹:機器學習模型在工業界有著廣泛的應用。一般來說,研發者會針對一個工業問題使用許多的模型進行預測,並將表現最優秀的模型用於生產。然而,機器學習模型的表現好壞多由訓練數據與生產過程中收到的數據決定,模型的泛化力不同,根據收到的數據不同,預測效果也好壞不一。
  • 大數據:材料基因組計劃,機器學習方法預測材料性能!
    智能網絡搜索、語音識別,乃至無人超市、無人駕駛汽車等,依託於機器學習方法的新事物正迅速地在生活中普及。Alpha Go的橫空出世更讓世界驚嘆於人工智慧的潛在價值。在科研領域,大數據的理念正在改變著科研人員對未知世界的探索方式。
  • 一種基於智慧運營平臺,將大數據技術和數據挖掘技術相結合
    2大數據平臺及技術  安徽聯通構建基於B域、O域和M域數據融合的大數據平臺——智慧運營平臺,實現數位化轉型及全業務流程的智慧運營。利用基於大數據分析平臺構建的新一代智能數據挖掘系統 SmartMiner進行自動化數據挖掘,實現各種算法模型的訓練和預測。藉助智慧運營平臺強大的大數據分析和處理能力,結合現網客戶運營的經驗,建立有效的用戶流失預測模型,實現用戶的流失預警、維繫策略匹配、客戶反饋優化等一整套流程,能夠有效降低用戶流失。
  • 機器學習中的模型漂移(Model Drift)簡介
    當今,機器學習模型已經成為商業決策的主要驅動因素,和其他商業策略一樣,這些機器學習模型需要隨著時間的推移而進行修改,其背後的技術原因是「模型漂移」。雖然大多數課程、文章和帖子都描述了機器學習(ML)生命周期(從收集數據開始到部署機器學習模型結束),但是它們往往忘記了機器學習生命周期中一個非常重要的特性,即模型漂移。模型漂移的本質意思是指目標變量和自變量之間的關係隨時間而變化。由於這種漂移,模型會變得不穩定,並且隨著時間的推移預測會不斷出錯。
  • 手把手:用Python搭建機器學習模型預測黃金價格
    新年第一天,讓我們嘗試用python搭建一個機器學習線性回歸模型,預測金價!自古以來,黃金一直作為貨幣而存在,就是在今天,黃金也具有非常高的儲藏價值,那麼有沒有可能預測出黃金價格的變化趨勢呢?我們將建立一個機器學習線性回歸模型,它將從黃金ETF (GLD)的歷史價格中獲取信息,並返回黃金ETF價格在第二天的預測值。GLD 是最大的以黃金進行直接投資的ETF交易基金。
  • Aura 以機器學習為核心的數據驅動型應用開發平臺
    一般來說,金融欺詐檢測的方法分為兩大類:第一類是依靠專家驅動的方法,這類方法把業務專家的經驗進行積累沉澱,把第一線接觸各類金融欺詐案件的專業人員的知識進行梳理。第二類的方法是數據驅動的,這類方法依靠數學模型進行數據挖掘和機器學習,並建立檢測模型,再利用檢測模型的預測能力進行實時的反欺詐檢測工作。 我們採用了專家經驗和數據驅動模型相結合的方法,有序的建立支付欺詐檢測的業務邏輯。
  • Airbnb欺詐預測機器學習模型設計:準確率和召回率的故事
    Airbnb信任和安全小組通過構建機器學習模型進行欺詐預測,本文介紹了其設計思想。假想模型是預測某些虛擬人物是否為「反面人物」,基本步驟:構建模型預期,構建訓練集和測試集,特徵學習,模型性能評估。為了減少此類欺詐行為,信任和安全小組的數據科學家構建了不同種類的機器學習模型,用來幫助識別不同類型的風險。想要獲得我們模型背後更多的體系結構信息,請參考以前的文章 機器學習風險系統的設計。在這篇文章中,我對機器學習的模型建立給了一個簡短的思維過程概述。
  • 聽大咖講論文丨數據驅動的自動駕駛預測架構及其在Apollo的應用
    上期我們為大家整理了《<聽大咖>直播回顧丨百度Apollo自動標定系統:一種工業級、數據驅動、基於學習的車輛縱向動力學標定算法》,今天我們將繼續為大家送出第四篇論文講解,由百度Apollo高級軟體架構師——許珂誠
  • AMS機器學習課程:預測雷暴旋轉的基礎機器學習 - 數據
    註:本文使用的數據需要額外下載,請瀏覽以下文章獲取更多信息。《AMS機器學習課程:數據分析與預處理 - 讀取數據》《AMS機器學習課程:數據分析與預處理 - 數據變換與可視化》《AMS機器學習課程:數據分析與預處理 - 準備數據》參考文獻本筆記本引用了下面列出的一些出版物。
  • 大數據給機器學習帶來了什麼影響?
    不知道是否可以這樣認為:從主流為符號機器學習發展到主流為統計機器學習,反映了機器學習從純粹的理論研究和模型研究發展到以解決現實生活中實際問題為目的的應用研究,這是科學研究的一種進步。  平時由於機器學習界的朋友接觸多了,經常獲得一些道聽途說的信息以及專家們對機器學習的現狀及其發展前途的評論。在此過程中,難免會產生一些自己的疑問。
  • 【可解釋學習】利用SHAP對分子活性預測機器學習模型進行解釋
    文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。——背景——眾所周知,機器學習模型在藥物研究中取得了許多優秀的成果,其中包括分子性質預測、從頭藥物設計、分子合成分析等多個方面。
  • 機器學習模型必不可少的5種數據預處理技術
    如果您曾經參與過數據科學項目,那麼您可能會意識到數據挖掘的第一步和主要步驟是數據預處理。在現實生活問題中,我們得到的原始數據往往非常混亂,機器學習模型無法識別模式並從中提取信息。1.處理null值:null值是數據中任何行或列中缺失的值。
  • 數據建模中分類與預測模型
    摘要:  隨著計算機技術的興起,當前社會已經進入大數據資訊時代。資本市場隨著投資者的不斷湧入以及金融科技的不斷發展,交易時所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個人的力量就顯得愈加薄弱。
  • 想在手機上用自己的機器學習模型?谷歌爸爸的模型壓縮包你滿意
    該 ML Kit 開發套件中的一項即將可用的核心功能,是由谷歌 research 團隊開發的 Learn2Compress 技術所驅動的一項自動模型壓縮服務。Learn2Compress 技術能夠在 TensorFlow Lite 內定製移動端深度學習模型,定製後的模型可高效的運行在移動端設備上,無需擔心內存不足和運行速度過慢。
  • 機器學習模型選擇如此簡單
    機器學習的討論經常會涉及到的問題是:什麼機器學習模型才是最好的?是邏輯回歸模型,隨機森林模型,貝葉斯方法模型,支持向量機模型?抑或是神經網絡模型?每個人似乎都有自己心中最愛!但這些討論試圖把機器學習的挑戰縮減為單個問題,而這對機器學習的初學者帶來了特別嚴重的誤解。
  • 小白也看得懂的機器學習模型工作原理
    機器學習圖機器學習是指將大量數據加載到電腦程式中並選擇一種模型「擬合」數據,使得計算機(在無需你幫助的情況下)得出預測。計算機創建模型的方式是通過算法進行的,算法既包括簡單的方程式(如直線方程式),又包括非常複雜的邏輯/數學系統,使計算機得出最佳預測。機器學習恰如其名,一旦選擇要使用的模型並對其進行調整(也就是通過調整來改進模型),機器就會使用該模型來學習數據中的模式。然後,輸入新的條件(觀測值),它就能預測結果!
  • MLOps正在改變機器學習模型的開發方式
    機器學習運維 (MLOps) 的基礎理論可以幫助數據科學團隊更快、更有信心地交付模型,其涉及版本控制、測試和流水線這三個關鍵概念。提供機器學習解決方案遠不止僅提供模型那麼簡單。機器學習運維 (MLOps) 的基礎理論可以幫助數據科學團隊更快、更有信心地交付模型,其涉及版本控制、測試和流水線這三個關鍵概念。MLOps(https://ml-ops.org/)是指機器學習運維。
  • 酷家樂以圖搜模型上線 「AI+大數據」雙引擎驅動家居行業
    在家居板塊,酷家樂創造性將AI技術引入家居設計環節,研發上線「以圖搜模型」功能,通過「人工智慧+大數據」雙引擎,驅動家居行業進入智能化和人性化新時代,進一步實現家居行業「所想即所見,所見即所得」。
  • 如何通過7個步驟構建機器學習模型
    組織構建一個可行的、可靠的、敏捷的機器學習模型來簡化操作和支持其業務計劃需要耐心、準備以及毅力。各種組織都在為各行業中的眾多應用實施人工智慧項目。這些應用包括預測分析、模式識別系統、自主系統、會話系統、超個性化活動和目標驅動系統。