從零開始數據分析:一個數據分析師的數據分析流程

2020-11-22 199IT

數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。

簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。

數據分析過程1、探索性數據分析

初步獲取的數據是雜亂無章的,通過圖表形式對數據進行整合,找尋數據之間存在的關係。

2、模型選定分析

通過探索性數據分析,歸納出一類甚至是多類數據模型,通過對模型再次整合,進一步分析出一定的模型。

3、推斷分析

通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。

數據分析流程

完整數據分析流程圖

1. 識別信息需求

識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。

2.數據採集

了解數據採集的意義在於真正了解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。幫助數據分析師更有針對性的控制數據生產和採集過程,避免由於違反數據採集規則導致的數據問題;同時對數據採集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。

在數據採集階段,數據分析師需要更多的了解數據生產和採集過程中的異常情況,能很大程度上避免「垃圾數據進導致垃圾數據出」的問題。

2.數據存儲

在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最後得到了怎樣的數據。由於數據在存儲階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬體、內外部環境問題無法保證,這些都會導致後期數據應用問題。

3.數據提取

數據提取是將數據取出的過程,數據提取的核心環節是從哪取、何時取、如何取。

在數據提取階段,數據分析師首先需要具備數據提取能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。

第一層是從單張資料庫中按條件提取數據的能力,where是基本的條件語句;

第二層是掌握跨庫表提取數據的能力,不同的join有不同的用法;

第三層是優化SQL語句,通過優化嵌套、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。

4.數據挖掘

數據挖掘是面對海量數據時進行數據價值提煉的關鍵,以下是算法選擇的基本原則:

沒有最好的算法,只有最適合的算法,算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。

沒有一種算法能解決所有問題,但精通一門算法可以解決很多問題。

挖掘算法最難的是算法調優,同一種算法在不同場景下的參數設定相同,實踐是獲得調優經驗的重要途徑。

在數據挖掘階段,數據分析師要掌握數據挖掘相關能力:一是數據挖掘、統計學、數學基本原理和常識;二是熟練使用一門數據挖掘工具,Clementine、SAS或R都是可選項,如果是程序出身也可以選擇編程實現;三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點。

5.數據分析

分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常所用的方法有:

老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;

新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;

數據分析相對於數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論後,如何解釋算法在結果、可信度、顯著程度等方面對於業務的實際意義,如何將挖掘結果反饋到業務操作過程中便於業務理解和實施是關鍵。

6.數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。

7.數據應用

數據應用是數據具有落地價值的直接體現,這個過程需要數據分析師具備數據溝通能力、業務推動能力和項目工作能力。

數據溝通能力。深入淺出的數據報告、言簡意賅的數據結論更利於業務理解和接受。

業務推動能力。在業務理解數據的基礎上,推動業務落地實現數據建議。

項目工作能力。數據項目工作是循序漸進的過程,無論是一個數據分析項目還是數據產品項目,都需要數據分析師具備計劃、領導、組織、控制的項目工作能力。

附:數據分析常用方法

1、描述性統計分析

包括樣本基本資料的描述,作各變量的次數分配及百分比分析,以了解樣本的分布情況。

此外,以平均數和標準差來描述市場導向、競爭優勢、組織績效等各個構面,以了解樣本企業的管理人員對這些相關變量的感知,並利用t檢驗及相關分析對背景變量所造成的影響做檢驗。

2、Cronbach』a信度係數分析

信度是指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性(consistency)來加以表示該測驗信度的高低,信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。

針對各研究變量的衡量題項進行Cronbach』a信度分析,以了解衡量構面的內部一致性。一般來說,Cronbach』a僅大於0.7為高信度,低於0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。

3、探索性因素分析(exploratory factor analysis)和驗證性因素分析(confirmatory factor analysis)

用以測試各構面衡量題項的聚合效度(convergent validity)與區別效度(discriminant validity),因為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效,所以我們必須對效度進行檢驗。

效度是指工具是否能測出在設計時想測出的結果,收斂效度的檢驗根據各個項目和所衡量的概念的因素的負荷量來決定,而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關係數,檢定相關係數的95%信賴區間是否包含1.0,若不包含1.0,則可確認為具有區別效度(Anderson,1987)。

4、結構方程模型分析(structural equations modeling)

由於結構方程模型結合了因素分析(factor analysis)和路徑分析(path analysis),並納入計量經濟學的聯立方程式,可同時處理多個因變量,容許自變量和因變量含測量誤差,可同時估計因子結構和因子關係,容許更大彈性的測量模型,可估計整個模型的擬合程度(Bollen和Long,1993),因而適用於整體模型的因果關係。

在模型參數的估計上,採用最大似然估計法(Maximum Likelihood,ML);在模型的適合度檢驗上,以基本的擬合標準(preliminary fit criteria)、整體模型擬合優度(overall model fit)以及模型內在結構擬合優度(fit of internal structure of model)(Bagozzi和Yi,1988)三個方面的各項指標作為判定的標準。

在評價整體模式適配標準方面,本研究採用x2(卡方)/df(自由度)值、擬合優度指數(goodness.of.f:iJt.in.dex,GFI)、平均殘差平方根(root—mean.square:residual,RMSR)、近似誤差均方根(root-mean—square-error-of-approximation,RMSEA)等指標;模型內在結構擬合優度則參考Bagozzi和Yi(1988)的標準,考察所估計的參數是否都到達顯著水平。

相關焦點

  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    3、推斷分析通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。數據分析流程完整數據分析流程圖1. 識別信息需求識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。2.
  • 讓一位數據分析師崩潰有多簡單?
    前段時間新業務上線,接到了很多的數據分析需求,每天加班到十點多。偏偏需求的節點又非常緊,產品、增長、運營、市場各方大佬們,都在不斷地催促我們提供數據決策!基本每天都是好幾個需求,還被嫌棄出決策慢。。。這個工作量,求求你們再招個數據分析師吧!
  • 數據科學家和數據分析師的區別在哪兒?
    這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果;一部分差異在分析的自動化上,數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • 如何成為合格的數據分析師,需要考取哪些證書嗎?
    人們對於數據分析師的崗位趨之若鶩,國內高校也爭相開始設置大數據與數據分析相關專業,人們對數據分析的認知和需求越來越深,越來越多的人期望加入數據分析師行列。那麼,該如何成為合格的數據分析師呢,成為一名合格的數據分析師需要考取的證書又有哪些呢?下面跟大家好好普及普及。首先,數據分析師需要具備符合現代企業公司要求的基本技能。
  • 一個成功的數據分析師的職業生涯
    數據分析師做什麼?數據分析員收集,處理和執行數據的統計分析,即使數據以某種方式或其他方式有用。它們幫助其他人做出正確的決策,並優先處理已收集的原始數據,以便使用某些公式和應用正確的算法使工作更輕鬆。如果你對數字,代數函數充滿熱情,並喜歡與其他人分享你的工作,那麼你將成為數據分析師。
  • 淺談數據分析和數據建模
    大數據應用有幾個方面,一個是效率提升,幫助企業提升數據處理效率,降低數據存儲成本;另外一個是對業務作出指導,例如精準營銷,反欺詐,風險管理以及業務提升。另外一個典型案例是第二次世界大戰期間,統計分析學家改造轟炸機。英美聯盟從1943年開始對德國的工業城市進行轟炸,但在1943年年底,轟炸機的損失率達到了英美聯盟不能承受的程度。轟炸軍司令部請來了統計學家,希望利用數據分析來改造轟炸機的結構,降低陣亡率,提高士兵生還率。統計學家利用大尺寸的飛機模型,詳細記錄了返航轟炸機的損傷情況。
  • CDA數據分析師認證證書含金量不斷提高,成數據分析入門新剛需!
    因此,CDA數據分析師認證應運而生,CDA全稱Certified Data Analyst,是大數據和人工智慧時代面向國際範圍全行業的數據分析專業人才職業簡稱。該證書範圍涵蓋各行大數據,及數據分析從業者所需具備的技能,符合全球大數據及數據分析技術潮流,可為全球企業和機構提供數據分析人才參照標準。「CDA數據分析師」認證已得到教育部直屬中國成人教育協會及大數據專業委員會認定,通過考試者即可獲CDA數據分析師中英文雙證書。
  • 什麼樣的人適合學習數據分析?小白如何自學數據分析?
    主圖時下的大數據時代與人工智慧熱潮,有很多人對數據分析感興趣,卻下手無從。零基礎小白剛接觸數據分析會有這樣的疑問,沒有數學基礎,可以學習數據分析嗎?如何找到一份數據分析的實習呢?一、什麼叫做數據分析數據是21世紀最性感的行業,生活在大數據年代,需要用到數據去解決問題,並且支持決策,數據分析從廣泛上來理解,不僅包含數據分析師這個崗位,同時更多的是一種技能,無論從事什麼行業什麼崗位,都可以通過學習這種技能,來提高自己的工作效率,增強自己對於數據的洞察能力,而這個能力,無論是在工作學習還是生活中,都能起到很大的作用。
  • 大數據分析學習之路
    把蘊含在數據中的規律建議給Boss,從而影響產品,流程和決策。數據工程師的工作職責:分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特徵。通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。
  • 十圖看懂「CDA數據分析師」證書的含金量
    市面上有很多種數據分析師的證書,但是到底考哪一種讓人頭疼。今天帶大家一起看看「CDA數據分析師認證」的含金量如何。為想要投身於數據分析領域的人提供一點專業性意見。 於近日,CDA數據分析師公布了《2020上半年數據分析人才及CDA持證人行業報告》,正文如下: 目前市場上提供培訓認證主要關注工具的使用,而非切合實際業務場景的應用,這將導致新人出現看到數據無法開始工作的尷尬局面。
  • Python數據分析師的就業前景如何
    首先,從工業網際網路和大數據的發展趨勢來看,Python數據分析師的就業前景還是非常廣闊的,一方面數據分析本身的應用場景會越來越多,另一方面Python語言在人工智慧領域也有比較廣泛的應用,所以Python數據分析師的發展空間也比較大。
  • 第十二屆CDA數據分析師考試即將開始
    「CDA數據分析師」旨在加強全球範圍內科學化、專業化、體系化的大數據及數據分析人才隊伍建設,進一步提升數據分析師的職業素養與能力水平,促進數據科學行業應用的高質量持續快速發展。「CDA數據分析師認證」是一套科學化,專業化,國際化,系統化的人才考核標準,分為CDA LEVELⅠ,LEVEL Ⅱ,LEVEL Ⅲ,涉及金融、電商、醫療、網際網路、電信等行業大數據及數據分析從業者所需要具備的技能,符合當今全球大數據及數據分析技術潮流,為各界企業、機構提供數據分析人才參照標準。通過CDA數據分析師認證考試者可獲得CDA數據分析師認證證書。
  • 轉行數據分析師後悔了?脫穎而出才是關鍵!
    但又擔心轉行後的工作待遇達不到自己的預期,顧慮重重……時下的大數據時代與人工智慧熱潮,相信有許多對數據分析師或大數據分析師非常感興趣、躍躍欲試想著轉行的朋友,但面向整個社會,最不缺的其實就是人才,對於是否轉行數據分析行列,對於能否勇敢一次跳出自己的舒適圈,不少人還是躊躇滿志啊!畢竟好多決定,一旦做出了就很難再回頭了。
  • 零基礎入門數據分析師——你可以做到!
    如果您計劃成為一名數據分析師,目標是提升數據獲取、數據分析、數據可視化的水平。但是網上資料一大堆,完全零基礎的你從哪開始學習?視頻下載了很多,無法堅持學習? 經常遇到問題,卻得不到及時解決,浪費大量寶貴時間。CDA數據分析研究院的老師指導您零基礎入門數據分析,以下將針對零基礎學員介紹數據分析的流程。
  • 如何通過網絡數據的獲取,做出這些數據分析項目?
    這就是需求不明確導致的,當然學習方式也值得商榷,那到底數據分析需要什麼樣的技能呢? 這裡作為例子,從招聘網站上找了幾個數據分析的崗位,我們來看看具體的要求是怎樣的。其實企業對數據分析師的基礎技能需求差別不大,可總結如下:分析工具:一般要求SPSS/SAS/R/Python等分析工具至少會一種,會兩種以上加分,有的企業因內部需求,會指定的一種;資料庫:絕大會要求會SQL,部分要求SQL/NoSQL會一種,高級的分析師或者大型企業要求能夠處理大數據,需要Hive(較少的需要Hadoop/Spark);統計學:若無相關專業背景,需要具備相應的統計學
  • 學習Python數據分析,需要幾個階段?
    因此,學習Python對於有志於向大數據分析崗位發展的數據分析師來說,是一件非常節省學習成本的事。 Python的眾多優點讓它成為受歡迎的程序設計語言之一,國內外許多公司也已經在使用Python,例YouTube,Google,阿里雲等等。
  • Top30數據分析師常見面試題(附答案)!
    【IT168 評論】這是一個用數據說話的時代,也是一個依靠數據競爭的時代。各大網際網路公司都在不斷完善自己的數據分析團隊,數據分析師的薪酬也是水漲船高。業內人士透露,應屆畢業生的平均薪資大概在6K左右,1至3年經驗的大概在10K到20K之間,5至10年經驗的大概在25K以上。薪資還是十分誘人的,那麼,如何快速成長為一名年薪百萬的數據分析師呢?
  • 怎樣從數據分析師轉型數據科學家?
    數據分析師的首要作業是對數據進行搜集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改進決策。數據科學家也會進行相似的作業,但對其提出了更高的要求。那麼,怎樣從數據分析師轉型數據科學家呢?