淺談數據分析和數據建模

2021-01-09 人人都是產品經理

大數據應用有幾個方面,一個是效率提升,幫助企業提升數據處理效率,降低數據存儲成本;另外一個是對業務作出指導,例如精準營銷,反欺詐,風險管理以及業務提升。過去企業都是通過線下渠道接觸客戶,客戶數據不全,只能利用財務數據進行業務運營分析,缺少圍繞客戶的個人數據,數據分析應用的領域集中在企業內部經營和財務分析。

數字時代到來之後,企業經營的各個階段都可以被記錄下來,產品銷售的各個環節也被記錄下來,客戶的消費行為和網上行為都被採集下來。企業擁有了多維度的數據,包括產品銷售數據、客戶消費數據、客戶行為數據、企業運營數據等。擁有數據之後,數據分析成為可能,企業成立了數據分析團隊整理數據和建立模型,找到商品和客戶之間的關聯關係,商品之間關聯關係,另外也找到了收入和客戶之間的關聯關係。典型的數據分析案例如沃爾瑪啤酒和尿布、蛋撻和手電筒,Target的判斷16歲少女懷孕都是這種關聯關係的體現。

關聯分析是統計學應用最早的領域,早在1846年倫敦第二次霍亂期間,約翰醫生利用霍亂地圖找到了霍亂的傳播途徑,平息了倫敦霍亂,打敗了霍亂源於空氣汙染說的精英,拯救了幾萬人的生命。倫敦霍亂平息過程中,約翰醫生利用了頻數分布分析,建立了霍亂地圖,從死亡案例分布的密集程度上歸納出病人分布同水井的關係,從而推斷出汙染的水源是霍亂的主要傳播途徑,建議移除水井手柄,降低了霍亂發生的概率。

另外一個典型案例是第二次世界大戰期間,統計分析學家改造轟炸機。英美聯盟從1943年開始對德國的工業城市進行轟炸,但在1943年年底,轟炸機的損失率達到了英美聯盟不能承受的程度。轟炸軍司令部請來了統計學家,希望利用數據分析來改造轟炸機的結構,降低陣亡率,提高士兵生還率。統計學家利用大尺寸的飛機模型,詳細記錄了返航轟炸機的損傷情況。統計學家在飛機模型上將轟炸機受到攻擊的部位用黑筆標註出來,兩個月後,這些標註布滿了機身,有的地方標註明顯多於其他地方,例如機身和側翼。有的地方的標註明顯少於其他地方,例如駕駛室和發動機。統計學家讓軍火商來看這個模型,軍火商認為應該加固受到更多攻擊的地方,但是統計學家建議對標註少的地方進行加固,標註少的原因不是這些地方不容易被擊中,而是被擊中的這些地方的飛機,很多都沒有返航。這些標註少的地方被擊中是飛機墜毀的一個主要原因。軍火商按照統計學家的建議進行了飛機加固,大大提高了轟炸機返航的比率。以二戰著名的B-17轟炸機為例,其陣亡率由26%降到了7%,幫助美軍節約了幾億美金,大大提高了士兵的生還率。

一、數據分析中的角色和職責

數據分析團隊應該在科技部門內部還在業務部門內部一直存在爭議。在業務部門內部,對數據場景比較了解,容易找到數據變現的場景,數據分析對業務提升幫助較大,容易出成績。但是弊端是僅僅對自己部門的業務數據了解,分析只是局限獨立的業務單元之內,在數據獲取的效率上,數據維度和數據視角方面缺乏全局觀,數據的商業視野不大,對公司整體業務的推動發展有限。業務部門的數據分析團隊缺少數據技術能力,無法利用最新的大數據計算和分析技術,來實現數據分析和建模。數據分析和計算依賴於科技部門,效率較低,無法打通各個環節和實現效率和收益最優。

數據分析和挖掘部門位於科技部門,優點是直接可以了解所有數據,利用最新的大數據計算分析技術來進行數據分析和建模,數據視野好。面對全局數據建立數據採集和分析系統,系統復用程度高,降低重複投資,效率高。但是團隊人員商業敏感度低,過度關注技術和架構,重視技術的領先和處理效率,數據商業敏感度低,不重視數據商業化場景,對業務理解程度不夠,支持力度不如前者。科技部門願意搭建一個大數據平臺,讓業務部門自己去尋數據場景,業務部門在數據商業化過程中也會遇到環節不暢通,效率低下的問題。

數據分析團隊應該屬於獨立的部門,為所有的業務部門提供服務,具有獨立的技術團隊,可以搭建獨立的大數據計算和分析平臺,利用最新的數據處理技術來建立模型進行分析。另外數據分析團隊的人應來源於業務部門,具有高度的數據商業敏感度,可以將業務部門的需求分解為數據需求,將業務場景同數據場景以及數據分析相結合起來。

數據分析是一項實踐性很強的工作,涉及到很多交叉學科,需要不同的崗位和角色,來實現不同的性質的工作。基本的崗位和角色如下:

1、資料庫(倉庫)管理員DBA

DBA最了解企業內部的數據和可用的數據資源,包括數據的存儲細節和數據字典,另外其對數據的採集、清洗和轉化起到關鍵作用。

DBA為數據科學家和數據分析師提供加工好的原始數據,這些數據是數據分析和建模的基礎,DBA做了數據分析工作中最重要的基礎工作,完成了大量的髒活和累活。

2、業務專家

業務專家的優勢是數據的商業敏感度,了解業務需求,可以將業務需求轉化為數據需求,進一步找到數據應用場景。另外業務專家也可以通過對數據的分析,找到新的商業機會,同業務部門一起制定商業計劃,利用數據分析推動業務增長。

業務專家的經驗對於數據分析和建模是非常關鍵的,他們可能是風險管理人員、欺詐監測專家、投資專家等。數據建模來源於業務經驗和業務知識,正是業務專家的專業分析找到了業務規律,從而找到了建模方向,並對建模工作給出建議和解釋。

3、數據科學家

過去統計分析依賴於統計分析工具,大數據時代之後,數據量級的提升和數據類型的複雜程度,讓很多傳統的統計分析工具無法完成分析計算。這個時候,數據科學家出現了,他們可以利用自己的專業技能幫助業務專家和數據分析人員進行建模和計算。

過去數據統計分析建模常用SPSS,SAS,MATLAB等工具,現在基於大數據平臺的分析建模可以使用Spark+Scala/Python/R/Java。數據科學家了解模型和算法,可以直接承擔建模和調優工作,懂得選擇合適的算法來進行計算,提高效率。

4、數據分析師

數據分析師站在數據和商業的角度來解讀數據,利用圖標和曲線等方式向管理層和業務人員展現分析結果,揭示數據分析產生的商業機會和挑戰。

數據分析師將雜亂的數據進行整理後,將數據以不同的形式展現給產品經理、運營人員、營銷人員、財務人員、業務人員等。提出基於數據的結果和分析建議,完成數據從原始到商業化應用到關鍵一步,數據分析師的數據敏感度、商業敏感度、分析角度、表達方式對於商業決策很重要。

5、運營專家

數據分析結果和商業決策出來之後,運營專家負責實現商業決策。通過有計劃的運營活動,將數據分析的結果應用到實際的商業活動之中,運營專家是實現數據變現最後一公裡的關鍵人物。

運營專家屬於業務人員,實際上參與業務運營活動,利用數據分析結果,實現業務場景和數據場景的結合,實現數據商業化應用。

二、數據分析之前的各項準備工作

數據分析團隊各成員確定之後,將進行下一項工作,就是找到有價值的數據進行分析了。數據是分析的基礎,因此數據的質量、數據的相關度、數據的維度等會影響數據分析的結果影,其中GIGO(垃圾進垃圾出)對於數據分析結果影響最大。

1、數據源選擇

數據分析團隊面對大量的數據源,各個數據源之間交叉聯繫,各個數據域之間具有邏輯關係,各個產品統計口徑不同,不同的時間段數值不同等。這一系列問題多會影響數據分析結果,因此確定數據源選擇和數據整理至關重要。

DBA可以基於數據分析需要,找到相關數據,建立一張數據寬表,將數據倉庫的數據引入到這張寬表當中,基於一定的邏輯關係進行匯總計算。這張寬表作為數據分析的基礎,然後再依據數據分析需要衍生出一些不同的表單,為數據分析提供乾淨全面的數據源。寬表一方面是用於集中相關分析數據,一方面是提高效率,不需要每次分析時都查詢其他的數據表,影響數據倉庫效率。

2、數據抽樣選擇

簡單的數據分析可以調用全體數據進行分析,數據抽樣主要用於建模分析,抽樣需考慮樣本具有代表性,覆蓋各種客戶類型,抽樣的時間也很重要,越近的時間窗口越有利於分析和預測。在進行分層抽樣時,需要保證分成出來的樣本比例同原始數據基本一致。

3、數據類型選擇

數據類型分為連續型和離散型,建模分析時需要確定數據類型。進行業務收入趨勢分析、銷售額預測分析、RFM分析時,一般採用連續型變量。信用評級、分類預測時一般採用離散變量。

4、缺失值處理

數據分析過程中會面對很多缺失值,其產生原因不同,有的是由於隱私的原因,故意隱去。有的是變量本身就沒有數值,有的是數據合併時不當操作產生的數據缺失。

缺失值處理可以採用替代法(估值法),利用已知經驗值代替缺失值,維持缺失值不變和刪除缺失值等方法。具體方法將參考變量和自變量的關係以及樣本量的多少來決定。

5、異常值檢測和處理

異常值對於某些數據分析結果影響很大,例如聚類分析、線性回歸(邏輯回歸)。但是對決策樹、神經網絡、SVM支持向量機影響較小。

一般異常值是指明顯偏離觀測值的平均值,例如年齡為200歲,平均收入為10萬元時,有個異常值為300萬元。第一個異常值為無效異常值,需要刪掉,但是第二個異常值可能屬於有效異常值,可以根據經驗來決定是否保留或刪掉。

6、數據標準化

數據標準化的目的是將不同性質、不同量級的數據進行指數化處理,調整到可以類比的範圍。例如在建立邏輯回歸模型時,性別的取值是0或以,但是收入取值可能就是0-100萬,跨度較大,需要進行標準化。

一般可以採用最佳/最大標準化(Min-Max 標準化法)將數值定在0和1之間,便於計算。Z分數法和小數定標標準化法也可以採用。

7、數據粗分類(Categorization)處理

歸類和分類的目的是減少樣本的變量,常有的方法由等間距分類,等頻數分類。可以依據經驗將自變量分成幾類,分類的方法可以不同,建議採用卡方檢驗來決定採用哪種分類方法。連續型變量可以用WOE變化方法來簡化模型,但降低了模型的可解釋性。

8、變量選擇

數據分析過程中會面對成百上千的變量,一般情況下只有少數變量同目標變量有關,有助於提高預測精度。通常建模分析時,有意義的變量不會超過10-15個,稱他們為強相關變量(聰明變量)。可以利用變量過濾器的方法來選擇變量。常見的變量過濾器應用場景如下:

一般IV值大於0.3代表變量的預測力較強,可以採用。

三、數據分析過程

1、向業務部門進行調研,了解業務需要解決的問題,將業務問題映射成數據分析工作和任務

2、調研企業內外部數據,找到分析需要的數據,將數據匯聚到一個特定的區域,數據集市或數據倉庫,探索性分析

3、數據清洗,包括檢查數據的一致性,處理異常值和缺失值,刪除重複數據等

4、數據轉換,例如數據分箱(Binning),將字符型變量轉化為數字型變量,按照數據所需維度進行匯總

5、建立模型,按照業務需求建立不同模型(例如客戶流失預警、欺詐檢測、購物籃分析、營銷響應等)

6、模型結果解釋和評估,業務專家進行業務解釋和結果評價

四、大數據分析場景和模型應用

數據分析建模需要先明確業務需求,然後選擇是描述型分析還是預測型分析。如果分析的目的是描述客戶行為模式,就採用描述型數據分析,描述型分析就考慮關聯規則、序列規則、聚類等模型。

預測型數據分析就是量化未來一段時間內,某個事件的發生概率。有兩大預測分析模型,分類預測和回歸預測。常見的分類預測模型中,目標變量通常都是二元分類變量例如欺詐與否,流失與否,信用好壞等。回歸預測模型中,目標變量通常都是連續型變量,常見的有股票價格預測、違約損失率預測(LGD)等。

生存分析聚焦於將事件的結果和出現這一結果所經歷的時間進行分析,源於醫療領域,研究患者治療後的存活時間。生存分析可也可以用於預測客戶流失時間,客戶下次購買時間,客戶違約時間,客戶提前償還貸款時間,客戶下次訪問網站時間等。

常見的數據分析應用場景如下:

1、市場營銷

營銷響應分析建模(邏輯回歸,決策樹)淨提升度分析建模(關聯規則)客戶保有分析建模(卡普蘭梅爾分析,神經網絡)購物藍分析(關聯分析Apriori)自動推薦系統(協同過濾推薦,基於內容推薦,基於人口統計推薦,基於知識推薦,組合推薦,關聯規則)客戶細分(聚類)流失預測(邏輯回歸)

2、風險管理

客戶信用風險評分(SVM,決策樹,神經網絡)市場風險評分建模(邏輯回歸和決策樹)運營風險評分建模(SVM)欺詐檢測(決策樹,聚類,社交網絡)五、數據模型評價的方法1、AUC值判別法

AUC小於0.7識別能力很弱AUC在0.7-0.8之間識別能力可接受AUC在0.8-0.9 之間識別能力卓越AUC大於0.9 模型出現意外2、KS 判別法

KS值大於0.2就表示具有較好的可預測性

ps:本文大部分內容來源於 Bart Baesens 所著《Analysis in a Big Data World:The Essential Guide to DataScience and its Applications》。中文書名為《大數據分析數據科學應用場景與實踐精髓》柯曉燕張紀元翻譯

#專欄作家#

鮑忠鐵(微信號:daxiakanke),人人都是產品經理專欄作家,TalkingData首席金融行業布道師,上海大數據產業聯盟金融行業專家,金融行業大數據實踐推動者。

本文由原創發布於人人都是產品經理。未經許可,禁止轉載。

相關焦點

  • 專注圖關係數據挖掘,「極驗」發布圖數據建模平臺「疊圖」
    背後的技術支持包括用戶的生物特徵,比如滑鼠移動軌跡等行為軌跡的分析,結合動態更新的資料庫和全網聯防技術,在 SaaS 後臺,極驗也為網站提供實時的數據分析和預警功能。本次發布的新產品圖數據建模平臺,是極驗在圖數據建模領域探索數年後,研發的一套符合建模需求的底層數據引擎,支持企業級圖數據深度學習建模,企業能夠一站式完成建模操作。圖數據是什麼?
  • 什麼是數據分析和BI商業智能?
    一、什麼是數據分析?數據分析是從數據中提取、轉換、加載、建模、繪製結論,最終為決策提供支持的過程。儘管預測性分析相比單純的歷史數據分析擁有諸多優勢,但必須要了解預測只是一種估計,其準確性高度依賴於數據質量和業務狀態的穩定性,因此需要仔細處理和持續優化。
  • 未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模
    它會完全取代現有的建模過程麼?會有一部分人失業嗎?本文將從自動化建模平臺本身的痛點、技術細節、飛貸金融科技研發自動化建模平臺的踩坑經驗和思考,以及自動化建模的市場趨勢和人才發展角度,給大家提供一些思考。當下建模平臺普遍存在哪些痛點?
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。成為一名數據科學家必備技能:Python 或者 R、SQL、Jupyter Notebook。  算法/建模  1、Python,大部分公司傾向於用Python而不是R作為主要程式語言。雖然職位描述裡可能會同時列出兩者;但是,我猜你身邊的大多數人——比如機器學習工程師、數據工程師和軟體工程師——都不怎麼熟悉R。因此,要想成為一名更全面的數據科學家,Python應該更有用。
  • 1月24-26日SPSS Modeler複雜數據分析與建模
    SPSS Modeler強大的數據挖掘功能將複雜的統計方法和機器學習技術應用到數據當中,幫助客戶揭示了隱藏在交易系統或企業資源計劃(ERP)、結構資料庫和普通文件中的模式和趨勢,讓客戶始終站在行業發展的前端,顯著的投資回報率使得SPSS Modeler在業界久負盛譽,同那些僅僅著重於模型的外在表現而忽略了數據挖掘在整個業務流程中的應用價值的其它數據挖掘
  • 迎接數據科學ML+和DL+時代的來臨
    1、AI平臺---數位化轉型的關鍵  企業的數位化轉型起於「數據」,落於「場景」,AI技術的作用是通過「數據分析及洞悉信息背後的價值」加速和優化這一進程,而AI平臺作為技術的載體能讓這一進程更加敏捷、易於使用可視、可自主操作。
  • 從零開始數據分析:一個數據分析師的數據分析流程
    數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
  • 規範執法和大數據建模國內領先
    這次大賽上,金華交警在規範執法和大數據建模方面表現出色,榮獲交通違法現場查處和阻礙執行職務處置科目第二名,大數據建模科目二等獎。「這是全國交警系統20年來第一次舉辦全國性、全業務的大比武,展現了全國各交警支隊最頂尖的業務水平。」金華市交警支隊政工秘書處副主任洪連軍說,參賽隊員能獲獎得益於他們平時紮實的基層實踐經驗。
  • 如何深入淺出理解數據倉庫建模?
    一、數據倉庫建模的意義如果把數據看作圖書館裡的書,我們希望看到它們在書架上分門別類地放置;如果把數據看作城市的建築,我們希望城市規劃布局合理;如果把數據看作電腦文件和文件夾,我們希望按照自己的習慣有很好的文件夾組織方式,而不是糟糕混亂的桌面,經常為找一個文件而不知所措。數據模型就是數據組織和存儲方法,它強調從業務、數據存取和使用角度合理存儲數據。
  • BI和報表等於數據分析?終於有人講清楚了它們的區別
    編輯導語:提到BI,大家可能會認為它主要應用於數據分析和可視化一側,然而它的作用遠不止如此。在本篇文章中,作者為我們分別介紹了報表式BI、傳統式BI、自助式BI,並且在文末,為我們對商業智能和數據分析這兩個容易混淆的概念進行了區分。
  • 大數據時代:你用什麼來做數據分析
    數據規模的持續增長早已是行業定律,據了解,網際網路上每一秒鐘傳輸的視頻,需要花費一個人5年的時間才能看完。可見數據量之大,數據增長之快已經越來越超乎我們的想像。商業決策也開始越來越依賴數據的分析,如此,建立正確的數據聯繫,形成準確的數據分析就成為抓住時代機遇的關鍵。  近日,筆者從外媒看到幾款實用的大數據模型工具,部分筆者親測好用哦!
  • 市場調研和數據分析的方式和方法
    1、將規範的數據按照維度整理、錄入,然後進行建模;不規範的數據的話就必須得自己先通過一些定性的處理,讓它變得規範,然後再用工具進行分析;2、封閉性的問題,設置選項歸類即可。開放性的問題,建議還是先錄下來,然後再頭腦風暴整理出有用的東西;3定性的,焦點訪談和深訪,都可以錄音,在事後可以形成訪談記錄;焦點訪談的過程中,可以以卡片的形式或者其他的形式讓用戶做選擇題,可以獲取少量的有數據性的東西,其他的更多的是觀點、方向性的,這個需要在整理訪談記錄的時候根據問題來歸納整理;4、深度訪談的數據整理,我們以前會做頭腦風暴,建立很多個用戶模型,強行量化這些數據
  • 商業智能和數據分析之間的區別
    商業智能如何與分析不同   乍一看,聽起來像數據分析和商業智能只是兩種說法相同的方式。兩者之間存在一些重要的差異。數據分析側重於找到業務發生的原因。為什麼去年銷量下降?由於BI允許您在其他數據集(例如社交媒體,行業數據和環境數據)的上下文中查看數據,因此您可以更好地了解業務和產品及其性能。   例如,您的數據可能只會告訴您現有客戶希望如何營銷。
  • 讓一位數據分析師崩潰有多簡單?
    前段時間新業務上線,接到了很多的數據分析需求,每天加班到十點多。偏偏需求的節點又非常緊,產品、增長、運營、市場各方大佬們,都在不斷地催促我們提供數據決策!基本每天都是好幾個需求,還被嫌棄出決策慢。。。這個工作量,求求你們再招個數據分析師吧!
  • 《數據中臺實戰》:數據中臺的分層建模體系
    ODS層的作用是在業務系統和數據倉庫之間形成一個隔離層,在數據中臺進行計算任務時,可以以ODS層的數據為基礎進行計算,從而不給業務資料庫增加負擔。DIM層存儲的是維度數據如城市、省份、客戶端等維度的數據。第二層是DWD。DWD層數據是數據倉庫的第二層數據,一般是基於ODS和DIM層的數據做輕度匯總。
  • 十年數據分析經驗,總結出這三類分析工具最好用
    今天我們拋開這些個人色彩的東西,力求客觀地與大家淺談一下我個人對市面上幾款數據分析工具的看法,供大家參考。我共選了三類工具:ExcelBI工具R、Python等編程類語言下面我一一來介紹:Excel如果說BI工具是戰鬥機,R語言、Python是轟炸機,那麼Excel就是數據分析裡的航空母艦,表格製作、數據透視表、VBA等等功能強大,Excel的體系龐大到沒有任何一個分析工具能夠超過它,保證人們能夠按照需求進行分析。
  • IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!
    IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!傳統的智能建築/建築自動化/建築安全/智能校園經常採用建築信息模型建築信息模型(BIM)軟體,如Autodesk的Revit和Bentley,但這些BIM建模模型的數據往往過於肥大
  • 數據時代幾何處理與建模的研究進展與趨勢
    此類方法往往基於同類樣例數據建立參數或者非參數模型,用於描述三維模型的幾何和結構。這些模型可被用於在交互或自動建模中進行幾何和結構推斷,從而實現自動或半自動的三維模型構建。因此,數據驅動建模本身可以體現和應用於交互式建模、過程式建模和三維重建等方法中。
  • 零基礎學習數據分析,應該做哪些準備
    大數據是未來發展必然趨勢,不懂數據分析很可能在將來會被時代所淘汰,所以現在很多人都爭搶學習數據分析,而且很多人都是零基礎學習。零基礎學習數據分析是有一定難度的,需要大家提前做一些準備。下面,小編就來跟大家盤點一下學習數據分析之前那些必須要做的事。