運營商大數據挖掘——缺失數據處理

2021-01-09 網舟科技

作者:網舟科技(席漢斌)

在運營商大數據挖掘的應用中,由於數據獲取的渠道以及數據結構理解的差異等原因,經常會把一些數據記為「未知」,「空白」或使用一些特殊的標識來表示,這類數據通常被稱為缺失數據(missing data)或者是不完備數據(incomplete data)。這些缺失數據通常會造成非常大的影響,比如缺失數據會在一定程度上影響抽取數據模式的正確性和導出規則的準確性,從而導致建立錯誤的數據挖掘模型,並且由於現階段的大多數數據分析的算法都沒有具備分析和處理缺失數據的能力,因而當數據集中含有缺失數據時這些已經被廣泛使用的數據分析算法或者系統往往是無能為力的。目前,數據缺失的問題網舟科技團隊在工作中已經取得了一些研究性成果,其中包括應用近似值替換方法、隨機回歸填補方法、神經網絡、貝葉斯網絡等理論來處理缺失數據的填補問題。

下面就幾種常用的數據補齊方法進行對分析:刪除樣本法、0-1填補法、均值填補法、EM算法填補、回歸填補、MI算法、K-最鄰近法。

1缺失數據補齊技術

1.1 傳統方法

1.1.1刪除法

這方法的思想是將原來數據集中含有缺失數據的樣本刪除,從而得到一個包含完整數據的數據集。這種方法簡易可行,在含有數據缺失的樣本數量比較少的情況下數據補齊效果比較不錯。但是,這種方法是以刪除含有缺失數據的樣本來得到完整數據集,經常會有浪費資源的情況發生。例如,在刪除含有缺失數據樣本的同時,也失去了隱含在這些樣本中的大量有價值信息。並且當含有缺失數據的樣本數量比較多時,這種方法對處理後得到的數據集的均值和方差分布方面都會產生較大的偏差。

1.1.2填充0、1、均值法

該方法是將原數據集中包含缺失數據的項全都簡單地填充為0、1或者相應屬性的樣本均值,從而得到一個完整的數據集。

3實驗及分析

3.1 實驗數據

網舟科技出於數據保密的原則,實驗數據是從公開資料庫UCI機器學習資源庫獲取的4個含有缺失數據的分類數據集,他們分別是網際網路廣告數據集(internetadvertisements dataset)、肝炎數據集(hepatitis dataset)、乳腺腫塊數據集(mammographic masses dataset)以及眾議院投票數據集(house-votes-84 dataset)。以下分別簡稱這些數據集為ad,hepatitis,mammographic以及house vote。

這4個數據集均含有不同數量的缺失數據,表1列出了這4個數據集的包含樣本總數、屬性個數、含有缺失數據樣本數以及數據缺失比例。

大數據挖掘

3.2數值實驗及結果分析

針對以上4個數據集,分別應用填補0、填補1、填補均值、EM算法(EM)、回歸填補法、MI算法(MI)、KNN算法(KNN)以及刪除樣本的方法對其缺失值進行處理,得到相應的完整數據集。其中KNN算法的k值取10。

採用支持向量機的分類結果作為檢驗補齊性能指標度量。SVM的核函數分別採用線性核和Gaussian核。數據集的Gaussian核的Sigma值分別為0.00001,0.0001,0.001,0.01,0.1,1,10,100,1000,10000。使用n-折交叉檢驗來檢驗不同缺失值填補方法的處理效果,其中n值均取10。

圖1-4分別給出了支持向量機在Gaussian核下,不同Sigma值下各填補方法的效果。從圖中可以選出在合適的Sigma值下,相比其他填補方法,刪除樣本法及回歸法的填補效果比較好。從圖1-4的實驗結果中,我們可以選出針對不同數據的高斯核參數,即在4組數據下的相對最優Sigma參數分別為100、100、10、10。

大數據挖掘

圖1. Ad數據在不同sigma參數下的分類準確率

大數據挖掘

圖2. Hepatitis數據在不同sigma參數下的分類準確率

大數據挖掘

圖3. Housevotes數據在不同sigma參數下的分類準確率

大數據挖掘

圖4. Mammographic數據在不同sigma參數下的分類準確率

表2給出了支持向量機在線性核下(選用線性核的原因是該核無參數),對4個數據集使用不同填補方法的效果,從表2中可以看出刪除樣本準確率相對較高。

表3給出了支持向量機在Gaussian核下,對4個數據集使用不同填補方法的效果。

表2給出了支持向量機在線性核下(選用線性核的原因是該核無參數),對4個數據集使用不同填補方法的效果,從表2中可以看出刪除樣本準確率相對較高。

表3給出了支持向量機在Gaussian核下,對4個數據集使用不同填補方法的效果。

大數據挖掘

4結 論

針對4個分類數據集中的數據缺失問題展開對比分析,分別應用填補0、填補1、填補均值、EM算法、回歸填補法、MI算法、KNN算法以及刪除樣本的方法對其缺失值進行處理。使用支持向量機對數據集進行分類驗證不同的缺失數據補齊方法的效果。從數值實驗結果可以看出,回歸補齊法及刪除樣本法的效果相對較好,補齊後的數據的分類準確率更高。在實際的運營商應用中,其數據樣本大,或者樣本中缺失屬性比較多的情況,刪除樣本法就不夠實用了,因此回歸法補齊缺失數據是各類補齊數據方法中相對較好的一種。

相關焦點

  • 大數據分析處理及挖掘技術
    主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關係型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、複製等技術;開發大數據可視化技術。
  • Python數據清洗(二):缺失值識別與處理
    作者 | 劉順祥 來源 | 數據分析1480 前言在《Python數據清洗(一):類型轉換和冗餘數據刪除》中分享了有關數據類型轉換和冗餘信息刪除的兩個知識點,接下來繼續講解缺失值的識別和處理辦法。缺失值指的是由於人為或機器等原因導致數據記錄的丟失或隱瞞,缺失值的存在一定程度上會影響後續數據分析和挖掘的結果,所以對他的處理將顯得尤為重要。
  • 觀向數據:大數據在電信運營商領域的發展方向
    大數據,即指規模大到在獲取、存儲、管理、分析等方面大大超出了傳統資料庫軟體工具能力範圍,需要新處理模式才能處理的信息資產當前,大數據已成功在網際網路服務、行業應用、企業管理、經濟運行、社會管理等領域發揮了巨大作用,並向各個行業和業務領域快速滲透。 大數據對運營商的意義電信運營商作為數據管道,在運營服務中積累了大量數據。此類數據包括運營數據、電信基礎設施數據以及由其衍生的預算、財務等各類數據,並積累在電信運營商的IT系統中。
  • 十四、數據挖掘之數據預處理
    1.數據預處理數據預處理是指在主要的處理以前對數據進行的一些處理,以保證數據質量能滿足數據挖掘的任務。數據質量:為什麼要對數據預處理?數據預處理的形式數據處理的主要任務2 數據質量:為什麼要對數據預處理2.1 數據質量的因素在實際的數據挖掘任務中,數據質量決定了數據挖掘任務的成與敗,而數據質量涉及許多因素,主要包括:1.準確性、完整性和一致性;2.時效性:反應了數據的更新程度;3.可行性:反映有多少數據是用戶信賴的;4.可解釋性:反映了數據是否容易理解;2.2 數據預處理的原因現實世界中的數據是「髒的」
  • 數據挖掘:數據倉庫、聯機分析處理和挖掘與知識發現技術
    計算機系統中存在著兩類不同的數據處理工作:一類是操作型處理,也稱為聯機事務處理(Online Transaction,OLTP),它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢和修改,用戶較為關心操作的響應時間、數據的安全、完整性和並發支持的用戶數等問題,傳統的資料庫系統作為數據管理的主要手段,主要用於操作性處理;.
  • 大數據_數據挖掘技術分類及應用
    大數據簡介   大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。研究機構Gartner給出了這樣的定義。
  • 運營商大數據是如何將數據進行標籤化
    現在任何行業,企業都離不開數據作為業務支撐,而數據是很多行為產生的前提:如數據分析,數據挖掘,企業獲客,企業營銷等等。無論是什麼來源的數據,如「網際網路終端的Web,軟體」、還是移動終端的「App、H5、和網站等等,都是根據用戶的上網行為,通信行為,註冊行為等等來獲取到大量用戶數據資源的。
  • 運營商大數據 移動,聯通,電信大數據獲客
    移動,聯通,電信運營商大數據,就是在保證合法的前提下,依靠運營商強大的大數據云計算能力去建模分析和挖掘,相關企業公司所需要的客戶資源。並且在保證客戶隱私不被洩露的前提下,提供給相關公司企業進行營銷轉化,運營商大數據的最終目的就是將相關企業的產品和服務提供給真正需要的人和客戶,避免騷擾式營銷和電話轟炸式推廣。
  • 移動運營商大數據 網站訪客實時截流
    以中國移動為首的三大運營商掌握著如此龐大海量的用戶基數,以及生產和留存了大量的用戶基礎數據、用戶消費數據、終端數據和移動網際網路上網通信行為數據等。運營商所生產的用戶信息數據具有用戶數據全體量記錄、數據信息欄位完整、數據維度豐富、數據保存周期長,用戶數據時間可進行回溯、數據實時更新以及數據價值密度高、數據挖掘成本低等等特點。
  • R數據分析:資料缺失值的常見處理方法
    在數據預處理時,一個常見的問題就是缺失值的處理,今天再寫一次缺失值處理。,NA,6)is.na(tmp)[1] FALSE FALSE FALSE TRUE FALSE TRUE FALSE還可以計算缺失的個數:sum(is.na(tmp))2在處理缺失值的過程中很多人會選擇「直接刪除缺失值」或者「使用平均值插補缺失」,這兩個方法都是有一定問題的
  • BI工具不僅是數據可視化,數據挖掘和處理才是核心
    隨著數位化時代的來臨,企業面臨的數據處理與分析問題越來越多,近幾年冒出了眾多的BI工具,都著重強調其數據可視化效果有多好。誠然,數據可視化效果是很重要,清晰亮麗的各類圖表,狂拽酷炫的動態大屏展示,看起來真的很爽。但是,可視化只是BI工具的最終呈現效果,企業做數據分析不是僅僅把表做好看,真正的數據分析需要數據的獲取、清洗、形成報表、得出結論等一系列工序,最終為企業管理者提供決策支持。
  • 在python中使用KNN算法處理缺失的數據
    處理缺失的數據並不是一件容易的事。 方法的範圍從簡單的均值插補和觀察值的完全刪除到像MICE這樣的更高級的技術。 解決問題的挑戰性是選擇使用哪種方法。 今天,我們將探索一種簡單但高效的填補缺失數據的方法-KNN算法。
  • 在Python中使用KNN算法處理缺失的數據
    處理缺失的數據並不是一件容易的事。 方法的範圍從簡單的均值插補和觀察值的完全刪除到像MICE這樣的更高級的技術。 解決問題的挑戰性是選擇使用哪種方法。 今天,我們將探索一種簡單但高效的填補缺失數據的方法-KNN算法。
  • 移動,聯通大數據 運營商大數據精準獲客精準營銷
    所以,解決企業獲客難問題的關鍵是,通過移動,聯通運營商大數據來幫助企業確定精準目標客戶群體,和幫助企業建立精準立體的用戶畫像,並打上精準的行業標籤。,通過移動,聯通運營商大數據進行建模實時抓取,如訪客,使用用戶,來電諮詢者等等精準客戶資源。
  • 數據挖掘:新的商業競爭力
    數據挖掘:新的商業競爭力  數據挖掘(Data Mining)正是將海量數據這一金礦銀礦轉變成金銀財寶的冶金煉銀之術!  運營商擁有用戶通信相關數據,從語音到簡訊再到位置,數量之大超過任何一個網際網路巨頭,但它們卻很難有效利用這些數據;與之類似的是政府部門和軟體企業,它們空有海量數據,卻只能任其「沉睡」。這是因為大數據利用的難點在於數據挖掘的技術。
  • 大數據和「數據挖掘」是何關係?
    想要知道大數據和數據挖掘之間的關係,必須先對兩者的定義進行了解。首先來闡述一下大數據和數據挖掘的定義:大數據(Big data)的出現最早是媒體的一種宣傳噱頭,但隨著雲時代的來臨,大數據漸漸吸引了越來越多的關注。
  • 大數據中的第三方數據(1):運營商數據
    我們接下來會和大家聊聊大數據領域存在的一些第三方數據。最近,又有一些公司開始售賣運營商相關的數據服務。今天我們簡單敘述一下一種典型的以運營商大數據為基礎的營銷服務。從原理說,任何設備要上網都必須連接相應的運營商網絡,這樣運營商就可以在它那一側監聽用戶的網絡訪問行為。這些行為記錄就構成了運營商大數據的基礎,從這些行為記錄中確實可以分析出很多有價值的用戶畫像。
  • 大咖說數據挖掘的方法
    1.1 什麼是數據挖掘數據挖掘就是對存在的數據集進行分析和總結而產出有價值信息的過程。有時數據挖掘也用來泛指一種方法,即數據挖掘是對數據進行處理,並從數據中分析、提煉、總結出有價值的信息的方法。數據挖掘是大數據時代必然的產物,是對數據進行利用的辦法,也是大數據時代最具有挑戰性的工作。我們在數據採集、存儲和傳輸領域已經具備了先進的技術,能夠採集和存儲大量的數據,可是在數據挖掘和應用領域還知之甚少,數據挖掘技術是未來企業重要的技術。
  • 大數據信息:運營商大數據的功效和優點
    中國聯通/電信/運營商大數據營銷推廣第二個較大優勢是:大數據處理用戶體驗。要處理用戶體驗,根本所在真真正正把握客戶及這些人所應用的你的新品的情況,做最適度的提醒。中國聯通/電信/運營商大數據營銷推廣第三個較大優勢是:客戶歸類支撐點。
  • 大數據、數據分析和數據挖掘之間有什麼區別?
    「大數據」、「數據分析」 和 「數據挖掘」 忽然變成了熱門的流行詞,不斷形成與發展的新型的生產力和服務推動著人類經濟社會項目的數據形式與規模向著更快、更準的方向發展,這無疑也預示著現代大數據時代正朝著我們推進。