從零開始數據分析:一個數據分析師的數據分析流程

2020-12-11 199IT

數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。

簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。

數據分析過程1、探索性數據分析

初步獲取的數據是雜亂無章的,通過圖表形式對數據進行整合,找尋數據之間存在的關係。

2、模型選定分析

通過探索性數據分析,歸納出一類甚至是多類數據模型,通過對模型再次整合,進一步分析出一定的模型。

3、推斷分析

通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。

數據分析流程

完整數據分析流程圖

1. 識別信息需求

識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。

2.數據採集

了解數據採集的意義在於真正了解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。幫助數據分析師更有針對性的控制數據生產和採集過程,避免由於違反數據採集規則導致的數據問題;同時對數據採集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。

在數據採集階段,數據分析師需要更多的了解數據生產和採集過程中的異常情況,能很大程度上避免「垃圾數據進導致垃圾數據出」的問題。

2.數據存儲

在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最後得到了怎樣的數據。由於數據在存儲階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬體、內外部環境問題無法保證,這些都會導致後期數據應用問題。

3.數據提取

數據提取是將數據取出的過程,數據提取的核心環節是從哪取、何時取、如何取。

在數據提取階段,數據分析師首先需要具備數據提取能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。

第一層是從單張資料庫中按條件提取數據的能力,where是基本的條件語句;

第二層是掌握跨庫表提取數據的能力,不同的join有不同的用法;

第三層是優化SQL語句,通過優化嵌套、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。

4.數據挖掘

數據挖掘是面對海量數據時進行數據價值提煉的關鍵,以下是算法選擇的基本原則:

沒有最好的算法,只有最適合的算法,算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。

沒有一種算法能解決所有問題,但精通一門算法可以解決很多問題。

挖掘算法最難的是算法調優,同一種算法在不同場景下的參數設定相同,實踐是獲得調優經驗的重要途徑。

在數據挖掘階段,數據分析師要掌握數據挖掘相關能力:一是數據挖掘、統計學、數學基本原理和常識;二是熟練使用一門數據挖掘工具,Clementine、SAS或R都是可選項,如果是程序出身也可以選擇編程實現;三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點。

5.數據分析

分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常所用的方法有:

老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;

新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;

數據分析相對於數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論後,如何解釋算法在結果、可信度、顯著程度等方面對於業務的實際意義,如何將挖掘結果反饋到業務操作過程中便於業務理解和實施是關鍵。

6.數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。

7.數據應用

數據應用是數據具有落地價值的直接體現,這個過程需要數據分析師具備數據溝通能力、業務推動能力和項目工作能力。

數據溝通能力。深入淺出的數據報告、言簡意賅的數據結論更利於業務理解和接受。

業務推動能力。在業務理解數據的基礎上,推動業務落地實現數據建議。

項目工作能力。數據項目工作是循序漸進的過程,無論是一個數據分析項目還是數據產品項目,都需要數據分析師具備計劃、領導、組織、控制的項目工作能力。

附:數據分析常用方法

1、描述性統計分析

包括樣本基本資料的描述,作各變量的次數分配及百分比分析,以了解樣本的分布情況。

此外,以平均數和標準差來描述市場導向、競爭優勢、組織績效等各個構面,以了解樣本企業的管理人員對這些相關變量的感知,並利用t檢驗及相關分析對背景變量所造成的影響做檢驗。

2、Cronbach』a信度係數分析

信度是指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性(consistency)來加以表示該測驗信度的高低,信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。

針對各研究變量的衡量題項進行Cronbach』a信度分析,以了解衡量構面的內部一致性。一般來說,Cronbach』a僅大於0.7為高信度,低於0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。

3、探索性因素分析(exploratory factor analysis)和驗證性因素分析(confirmatory factor analysis)

用以測試各構面衡量題項的聚合效度(convergent validity)與區別效度(discriminant validity),因為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效,所以我們必須對效度進行檢驗。

效度是指工具是否能測出在設計時想測出的結果,收斂效度的檢驗根據各個項目和所衡量的概念的因素的負荷量來決定,而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關係數,檢定相關係數的95%信賴區間是否包含1.0,若不包含1.0,則可確認為具有區別效度(Anderson,1987)。

4、結構方程模型分析(structural equations modeling)

由於結構方程模型結合了因素分析(factor analysis)和路徑分析(path analysis),並納入計量經濟學的聯立方程式,可同時處理多個因變量,容許自變量和因變量含測量誤差,可同時估計因子結構和因子關係,容許更大彈性的測量模型,可估計整個模型的擬合程度(Bollen和Long,1993),因而適用於整體模型的因果關係。

在模型參數的估計上,採用最大似然估計法(Maximum Likelihood,ML);在模型的適合度檢驗上,以基本的擬合標準(preliminary fit criteria)、整體模型擬合優度(overall model fit)以及模型內在結構擬合優度(fit of internal structure of model)(Bagozzi和Yi,1988)三個方面的各項指標作為判定的標準。

在評價整體模式適配標準方面,本研究採用x2(卡方)/df(自由度)值、擬合優度指數(goodness.of.f:iJt.in.dex,GFI)、平均殘差平方根(root—mean.square:residual,RMSR)、近似誤差均方根(root-mean—square-error-of-approximation,RMSEA)等指標;模型內在結構擬合優度則參考Bagozzi和Yi(1988)的標準,考察所估計的參數是否都到達顯著水平。

相關焦點

  • 數據科學家知識體系與數據分析完整流程
    一個完整的數據分析流程,應該包括以下幾個方面,建議收藏此圖仔細閱讀。完整的數據分析流程:1、業務建模。2、經驗分析。3、數據準備。4、數據處理。5、數據分析與展現。6、專業報告。7、持續驗證與跟蹤。
  • 推薦一種值得參考的數據分析工作流程
    不少零基礎入門的同學在網絡上找資料、找代碼、找數據集,拿到的東西質量總是參差不齊,給學習數據分析帶來了更多的困惑。因為他們無法判斷哪些才是真正適合的教材,甚至學錯了內容,時間浪費了,但感覺學到的東西得不到實踐價值。
  • CPDA數據分析師考試大綱
    數據分析師專業技術考試大綱(2019年修訂版)CPDA數據分析師專業技術考試主要測試考生是否具備數據分析基礎知識,是否了解數據分析工作流程及數據分析技術,是否具備利用數據分析知識及思維解決實際業務問題的能力。
  • 數據分析師和數據工程師的區別是什麼?
    ,面試官讓我說說數據工程師和數據分析師的區別在哪裡,怎麼回答? 這樣不僅能讓面試官看到你真的懂這兩個職位,還能讓面試官看出你具備多維度拆解分析方法、對比分析方法的思維能力。 從職責維度來看,數據工程師偏重於清洗數據,使其可以被數據分析師和數據科學家使用。而數據分析師偏重於使用分析方法來分析已經清洗過的數據,從而得到對實際應用場景有意義和有指導價值的數據結論。可以很明顯的看出來,數據工程師偏開發,數據分析師偏業務。
  • 讓一位數據分析師崩潰有多簡單?
    前段時間新業務上線,接到了很多的數據分析需求,每天加班到十點多。偏偏需求的節點又非常緊,產品、增長、運營、市場各方大佬們,都在不斷地催促我們提供數據決策!基本每天都是好幾個需求,還被嫌棄出決策慢。。。這個工作量,求求你們再招個數據分析師吧!
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。在維克託·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據分析指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理,因此不用考慮數據的分布狀態(抽樣數據是需要考慮樣本分布是否有偏,是否與總體一致)也不用考慮假設檢驗,這點也是大數據分析與一般數據分析的一個區別。
  • 數據分析師告訴你數據分析的結構體系
    而現如今隨著網際網路大數據應用的廣泛展開,越來越多的企業、政府機構等開始設立數據相關的角色以及職責。圍繞數據分析工作,也劃分了幾類職責區域。數據分析師:利用 ETL 工程師處理好的數據,滿足業務人員的數據需求。業務人員:產品、運營、市場、管理層等,因為產品改進、運營活動、商業決策等,有數據需求。數據分析師的基本要求對數據感興趣:是不是看到一行行的數字就頭大,選擇直接跳過?
  • 業務分析師和數據分析師之間的差異
    業務分析師和數據分析師都使用數據,不同之處在於他們用它做了什麼。數據分析人員收集數據,從數據中識別有用信息,並將他們的發現結構化為易於閱讀的圖表和儀錶板。分析數據是他們的終點。另一方面,業務分析師使用數據分析來制定戰略業務決策。對他們而言,數據是達到目的的手段。
  • 深入淺出數據分析
    ,以章回小說的方式由淺入深地講述數據分析從業人員要用到的方法,從實際案例出發,告別晦澀難懂的概念。作者:[美] Michael Milton豆瓣評分:7.5出版日期:2012年推薦指數:5顆星數據分析的流程 第一章講述了數據分析的流程,從提出問題到做出決策,中間的過程具體到每一步,和我們現在一直在強調的流程其實大差不差,數據是無處不在的,如何將原始數據轉變成推進工作的妙策
  • 數據科學家vs數據分析師,到底有啥區別?
    數據分析師與業務分析師、商業情報分析師,甚至Tableau開發人員有著相似的頭銜。數據分析的重點是描述和可視化數據所包含的信息,然後向非技術用戶傳達並做進一步的解釋說明。做預測分析的數據分析師跟數據科學家的工作有很多重疊部分——與數據科學家有更多相似之處,但不是通過自動化、算法化的方法來輸出預測的。SQL——前文提到過數據科學家如何使用SQL,數據分析師也會進行類似的操作。但是,SQL對數據分析師更重要。
  • 一個合格的數據分析師,應該具備什麼樣的能力呢?
    一個合格的數據分析師,應該具備什麼樣的能力呢?或者說一個初學者去學習數據分析的時候,應該重視學習哪些方面呢?。高等數學的相關知識數學是一切自然科學的科學的基礎,而大學數學裡,又以高等代數和微積分為基本。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • 「分析思維」轉行數據分析師的利弊分析後篇
    那麼就需要專業的廣告數據分析人員幫他去實施。如果說8000萬和一個億投下去的效果是一樣的,那你就幫他省了2000萬。還有一個就是機器學習,相對來說高深一點。做這個主要是數學專業的,或者是專門教算法這些專業的比較多。除了每個行業都需要數據分析這一優點之外,它還適合很多別的專業的人轉行進來。
  • 如何成為合格的數據分析師,需要考取哪些證書嗎?
    人們對於數據分析師的崗位趨之若鶩,國內高校也爭相開始設置大數據與數據分析相關專業,人們對數據分析的認知和需求越來越深,越來越多的人期望加入數據分析師行列。那麼,該如何成為合格的數據分析師呢,成為一名合格的數據分析師需要考取的證書又有哪些呢?下面跟大家好好普及普及。首先,數據分析師需要具備符合現代企業公司要求的基本技能。
  • 初級業務數據分析師怎麼做職業規劃?
    最近小編收到了很多小夥伴的反映,好不容易學完數據分析,然後披荊斬棘,過五關斬六將才進入數據分析行業,本想在新行業大展拳腳,卻沒想到每天單純跟數據打交道,不是在取數就是在取數的路上,小夥伴們就鬱悶了,說好的靠數據驅動業務增長呢,業務呢,增長呢?為啥只有數據?
  • 淺談數據分析和數據建模
    另外一個典型案例是第二次世界大戰期間,統計分析學家改造轟炸機。英美聯盟從1943年開始對德國的工業城市進行轟炸,但在1943年年底,轟炸機的損失率達到了英美聯盟不能承受的程度。轟炸軍司令部請來了統計學家,希望利用數據分析來改造轟炸機的結構,降低陣亡率,提高士兵生還率。統計學家利用大尺寸的飛機模型,詳細記錄了返航轟炸機的損傷情況。
  • 數據分析師的工作職責是什麼?
    文章來源: 接地氣學堂作者:接地氣的陳老師「我可能幹了個假的數據分析師!」經常有同學發出這種感慨,然後到處發《數據分析師是幹什麼的》《數據分析師、數據工程師、數據運營、數據挖掘工程師、商業數據分析師、我隨便寫個什麼分析師之間到底有什麼區別》一類的帖子。
  • 從零開始進階數據分析大師
    ……現在再也不用煩惱了,以上問題,統統幫你解決小蚊子聯合張文彤老師等名師推出《從零開始進階數據分析大師》系列課程,有編程方向的,也有非編程方向的,大家可以根據自己的特點進行選擇學習,幫你從小白一步步進階到數據分析大師
  • 如何成為數據分析師
    最近幾年大數據的概念比較火,越來越多的人感受到數據的價值,許多公司都開始招聘數據分析相關的職位。但如果你去看看國內的高校,會發現沒有一所大學開有數據分析專業的,職位的成熟度還不夠。
  • 數據分析師常用的數據分析方法有哪些?
    很多做數據分析或者剛接觸數據分析的小夥伴,不知道怎麼做數據分析?一點思維都沒有,今天小編給大家盤點2萬名數據分析師常用的數據分析方法有哪些?希望看完此文的小夥伴,有一個清晰的數據分析思維。數據分析思維混亂的小夥伴,需要宏觀的方法論和微觀的方法來指導。