面向初學者的數據分析知識,讓你快速了解數據分析

2020-12-22 人人都是產品經理

編輯導語:大數據是網際網路發展到一定階段的必然產物,身處於大數據時代的我們每天都會活在一連串的數據裡。因此,為了高效併合理地運用這些數據,數據分析行業迅速崛起。到現在,越來越多的人看到了數據分析的未來和前景,本文作者總結了初學者應該掌握的數據分析知識,幫助你快速掌握數據分析技巧。

一、什麼是數據分析?

數據或信息只是一串原始的數字或字符,數據量的增加會導致各種需求的增加。

比如我們需要對數據執行檢查,進行數據清理,轉換以及數據建模,通過這些方式來達到我們需要的目的,得出相應的結論,做出正確的決策——我們把這一系列過程稱為數據分析。

在統計應用中,數據分析可以又分為探索性數據分析(EDA)和驗證性數據分析(CDA)。這二者的區別在於——EDA著重於發現數據中的新特徵,而CDA著重於確認或否定現有的假設。

探索性數據分析可以理解為一種用於找到數據間的模式相關性的分析。就像是「參考答案」的獲取,這種「參考答案」有且不限於一個。

場景包括典型的「啤酒尿布」這類數據挖掘應用,工具包括SAS、SPSS這類數據挖掘軟體以及R語言這類語言工具。

優點是有可能從一堆貌似雜亂無章的數據中找到一些相關性和模式來輔助決策;缺點是找到一些無意義的相關性,比如所有擁有結婚證的用戶都結過婚。

驗證性數據分析是當你知道了用什麼分析模型和算法,目前需要對已有的數據計算出響應結果,更類似一種「準確答案「的獲取。

應用場景就是基於多維數據倉庫的OLAP分析應用。在企業應用最廣泛的就是EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。

在企業應用最廣泛的就是EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。

與"啤酒尿布」這種探索性數據挖掘應用相比,OLAP分析的結果只能是唯一的準確答案。

比如通過企業計算出的利潤率只能是一個數字,任何一家企業都不可能得出「利潤率有可能是13.2%」這樣的答案,一旦確定了一個數字,那這個數字就必然只有對和錯兩種結果,不存在第三種的可能性。

這類系統包括Oracle Hyperion、IBM Cognos以及智達方通Intcube EPM,這些都是基於多維數據倉庫的OLAP分析工具平臺。

二、數據分析的大致步驟

1. 確立目標

無論何時發生任何需求,我們首先都需要確定業務目標,評估情況,確定數據挖掘目標,然後根據需求生成項目計劃。在此階段定義業務目標。

2. 尋找數據

對於進一步的過程,我們需要收集初始數據,描述和探索數據,最後驗證數據質量以確保它包含我們所需的數據。從各種來源收集的數據將根據其應用和此階段對項目的需求進行描述,這也稱為數據瀏覽,對於驗證所收集數據的質量是必要的。

3. 數據整理

從最後一步收集的數據中,我們需要根據需要選擇數據,對其進行清理,構造以獲取有用的信息,然後將其整合在一起。

最後,我們需要格式化數據以獲取適當的數據。選擇數據,清理數據並將其集成為最終確定的格式,以便在此階段進行分析。

4. 數據建模

收集數據後,我們對其進行數據建模。為此,我們需要選擇一種建模技術,生成測試設計,構建模型並評估構建的模型。建立數據模型以分析數據中各種選定對象之間的關係,建立測試用例以評估模型,並在此階段對數據進行測試和實施。

5. 數據評估

在這裡,我們評估最後一步的結果,檢查錯誤範圍,並確定接下來要執行的步驟。我們評估測試用例的結果,並回顧此階段的錯誤範圍。

6. 部署

我們需要計劃部署,監視和維護,並生成最終報告並審查項目。在此階段,我們將部署分析結果,這也稱為審查項目。

三、數據分析的四種類型

1. 描述性分析

通過描述性分析這一手段,我們可以分析和描述數據的特徵。這是一個處理信息匯總的好方法。描述性分析與視覺分析相結合,為我們提供了全面的數據結構。

在描述性分析中,我們處理過去的數據以得出結論,並以儀錶板的形式展現出來。在企業中,描述性分析多用於確定關鍵績效指標或KPI以評估企業績效。

2. 預測分析

藉助預測分析,我們可以確定未來的結果。基於對歷史數據的分析,我們甚至可以預測未來。它利用描述性分析來生成有關未來的預測,藉助技術進步和機器學習,能夠獲得有關未來的預測性見解。

預測分析是一個複雜的領域,需要大量數據來熟練地執行預測模型及其調整從而獲得較為準確的預測,這需要我們精通機器學習並開發有效的模型。

3. 診斷分析

有時,企業需要對數據的性質進行批判性思考,並深入了解描述性分析。為了找到數據中的問題,我們需要對一些分析進行診斷。

通過診斷分析,我們可以診斷通過數據顯示的各種問題。企業使用此技術來減少損失並優化績效,企業使用診斷分析的一些示例包括:

企業實施診斷分析以減少物流延遲並優化生產流程。藉助銷售領域的診斷分析,可以更新營銷策略,否則將削弱總收入。

4. 規範分析

規範分析結合了以上所有分析技術的見解嗎,它被稱為數據分析的最終領域,規範分析使公司可以根據這些數據結論制定相關決策。

規範分析需要大量使用人工智慧,以方便公司做出謹慎的業務決策,像Facebook、Netflix、Amazon和Google之類的大公司正在使用規範分析來制定關鍵業務決策。

此外,金融機構也逐漸利用這種技術來增加進行決策。

四、數據分析可能會用到哪些工具?

基於數據分析目前良好的發展前景,各界也出現了許多好用的功能種類豐富的數據分析工具。既有面向開源的又有用戶友好型的,而以下這些工具是目前市面上比較常用且好評率較高的:

1. R

該工具是用於統計和數據建模的領先分析工具。R可以在UNIX、Windows和Mac OS等各種平臺上編譯和運行,它還提供了根據用戶要求自動安裝所有軟體包的工具。

2. Python

Python是一種開源的,面向對象的程式語言,易於閱讀,編寫和維護。它提供了各種機器學習和可視化庫,例如 Scikit-learn、TensorFlow、Matplotlib、Pandas、Keras等。

它還可以在任何平臺上進行組裝,例如SQL Server、MongoDB資料庫或JSON。

3. Tableau

這是一個免費軟體,可連接到任何數據源,例如Excel、公司數據倉庫等。然後通過網絡實時更新創建可視化效果、地圖、儀錶板等。

4. QlikView

該工具提供內存中數據處理,並將結果快速傳遞給最終用戶。它還提供數據關聯和數據可視化功能,數據壓縮到其原始大小的近10%。

5. SAS

一種用於數據處理和分析的程式語言和環境,該工具易於訪問,並且可以分析來自不同來源的數據。

6. Excel

此工具是數據分析中使用最廣泛的工具之一。該工具通常用於客戶的內部數據,它 通過透視表的預覽來分析匯總數據的任務。

7. RapidMiner

一個功能強大的集成平臺,可以與任何數據源類型(例如Acess、Excel、Microsoft SQL、Tera數據、Oracle、Sybase等)集成。該工具主要用於預測分析,例如數據挖掘、文本分析、機器學習。

8. KNIME

Konstanz Information Miner(KNIME)是一個開放源數據分析平臺,可讓您分析和建模數據。利用可視化編程的優勢,KNIME通過其模塊化數據管道概念提供了一個報告和集成平臺。

9. OpenRefine

也稱為GoogleRefine,此數據清理軟體將幫助您清理數據以進行分析,用於清除凌亂的數據,轉換數據以及從網站解析數據。

10. Apache Spark

最大的大型數據處理引擎之一,該工具在Hadoop群集中執行應用程式的內存速度快100倍,磁碟速度快10倍,該工具在數據管道和機器學習模型開發中也很流行。

五、數據分析歷史故事分享

倫敦霍亂的數據追蹤:

圖片來自網絡

約翰·斯諾(John Snow)(不是權力遊戲的角色)是一位英國醫生,他使用數據收集和數據分析來追蹤倫敦市中心霍亂暴發的根源,得出的結論是霍亂是由「水中的媒介」傳播的」,而不是通過「不良空氣」傳播的公認理論。

斯諾利用數據收集來追蹤霍亂的暴發,原因是兩家自來水公司從泰晤士河中抽取了水,而這些水幾乎沒有經過過濾。

他指出,一個巨大的雙盲實驗落入了他的大腿:

「不分男女,從各個年齡段,各個階層,不同階層,到三十萬,從紳士到窮人分為兩組,沒有他們的選擇,並且在大多數情況下,沒有他們的知識;一組被供應含有倫敦汙水的水。其中,任何可能來自霍亂患者的東西,另一組的水中完全不含這種雜質。」

斯諾對後續數據和其他工作的分析導致倫敦和其他城市的水和廢物管理發生根本變化,挽救了許多生命,並為全球公共衛生做出了重大貢獻。

六、如何成為一名數據分析師?

數據分析師收集,處理和執行大型數據集的分析。無論大小,每個企業都會生成並收集數據,這些數據可以採用客戶反饋、客戶、物流、市場研究等形式。

我認為作為一名數據分析師,至少得具備以下這些技能:

數據分析師首要的就是用數字說話:因此很明顯,數學是成為數據分析師的重要組成部分,線性代數和微積分的知識是將業務問題轉換為數學表達式所必需的。概率和統計:這些事想要成為數據分析師的必備技能,為了得出準確的結論,我們需要知道事件發生的可能性,也就是概率。為了進行推論和解釋數據,我們必須了解如何應用各種統計測試和技術。編程:絕對是數據分析的最重要組成部分之一。因此,學習一種或多種程式語言,例如Python、Java、SQL、R來進行數據管理和探索是必要的。成為一名數據分析師還不僅僅如此,以上只是必不可少的技能而已。

從根本上講,學習如何成為數據分析師與在任何行業中謀求職業生涯一樣——努力工作與成功成正比,僅僅靠天賦是不夠用的。一旦你成為了一名數據分析師,你將可能體驗以下職責:

與技術團隊,管理層和/或數據科學家一起制定目標;從主要和次要來源挖掘數據;清理和解剖數據以擺脫不相關的信息;使用統計工具和技術分析和解釋結果;查明數據集中的趨勢和模式;確定新的流程改進機會;提供管理數據報告;設計,創建和維護資料庫和數據系統;解決代碼問題和與數據有關的問題。路漫漫其修遠兮,關於數據分析的路道阻且長,最終我們仍需要自驅動去不斷學習汲取知識,這樣才能學好數據分析。

本文由 @小陳同學 原創發布於人人都是產品經理,未經許可,禁止轉載

題圖來自 Pexels,基於 CC0 協議

相關焦點

  • 數據分析案例及新手如何學習數據分析
    買家行為數據分析,可以幫助商家快速準確的對所有有過交易(也可以設置條件為有過諮詢)的客戶進行歸類。對其採購行為進行分析梳理,通過對客戶的篩選分層,針對性的跟進和了解買家需求。如果你是通過熱度指數觀察的容量和趨勢,那麼競爭則是看競爭指數。如果你看得是銷量,那麼競爭則看商家數。不同的數據所觀察的指標也不同。 大的層面了解完,還需要看該品類的壟斷程度,這裡可以去前臺搜索整理數據來做前十前二十的銷量佔比分析。如果佔比集中過高,則該平臺壟斷程度較強,不利於切入市場。
  • 學習數據分析,這些超好用的數據分析工具你必須知道!
    目前市場上有數千種工具能夠幫你節約時間和成本,帶你從全新的角度洞察你所在的行業。 以下介紹幾款超好用的數據分析工具,幫助你在數據分析的學習以及工作中能夠脫穎而出。
  • 新手如何快速入門數據分析?
    CDA數據分析研究院原創作品, 轉載需授權隨著網際網路迅猛發展,各大公司沉澱了很多的數據,如何找出藏在這些數據背後的規律,利用這些數據來給公司創造價值,作為一個新手面對這些問題的時候,你是不是考慮怎麼快速學習數據分析呢?
  • 學習數據分析,這些超好用的數據分析工具你必須知道!|rapidminer|...
    目前市場上有數千種工具能夠幫你節約時間和成本,帶你從全新的角度洞察你所在的行業。以下介紹幾款超好用的數據分析工具,幫助你在數據分析的學習以及工作中能夠脫穎而出。這款工具常由新一代數據科學家使用,因為其屬於一款業務開發平臺且能夠快速完成大規模數據的理解與分析。Rapidminer作為另一款大數據處理必要工具,Rapidminer屬於一套開源數據科學平臺,且通過可視化編程機制發揮作用。其功能包括對模型進行修改、分析與創建,且能夠快速將結果整合至業務流程當中。
  • 數據挖掘與數據分析
    2、在行業知識方面,數據分析要求對所從事的行業有比較深的了解和理解,並且能夠將數據與自身的業務緊密結合起來;而數據挖掘不需要有太多的行業的專業知識。  3、交叉學科方面,數據分析需要結合統計學、營銷學、心理學以及金融、政治等方面進行綜合分析;數據挖掘更多的是注重技術層面的結合以及數學和計算機的集合  數據挖掘和數據分析的相似之處:  1、數據挖掘和數據分析都是對數據進行分析、處理等操作進而得到有價值的知識。  2、都需要懂統計學,懂數據處理一些常用的方法,對數據的敏感度比較好。
  • 學習數據分析,這個數據分析神器你得知道!
    PowerBI 與 Excel 以及市面上大多數的數據分析軟體一樣,都屬於分析工具。但是,用過Excel進行數據分析的朋友應該會發現,Excel有一些局限性。比如:1、一個工作表數據記錄最多只能存儲1048576條2、處理超過幾萬行數據時要做好隨時死機的準備3、當數據分散在不同報表時不便於管理數據而Power BI恰好解決了上述局限性,人性化易操作的界面、不需要高級的IT語言知識、易於創建交互式動態圖表、輕鬆處理海量數據...這些特點Power BI通通滿足。
  • 靠自學學習數據分析,並轉行數據分析靠譜嗎?
    他認為數據分析源於業務,如果是做業務的,並非一定要轉到數據分析崗位,在業務崗同樣可以運用數據分析解決問題。他從傳統BI轉行到數據分析崗,現在是獨立數據分析二級部門負責人。 @數位化踐行者 將數據分析作為輔助技能 1.
  • TapTap面向遊戲廠商推出獨立數據分析產品TapDB
    繼開發者後臺、廣告系統之後,TapTap再次發布了一個面向遊戲廠商的服務產品——TapDB。不同以往,TapDB將作為一個獨立數據分析產品,面向市場開放。開發者可以使用TapDB隨時隨地查看遊戲數據,了解用戶屬性;第一時間發現和找出異常,橫向對比自己的每個產品。
  • 北京大學袁曉如:智能數據可視分析
    北京大學袁曉如為大家帶來報告《智能數據可視分析》。袁曉如,北京大學信息科學與技術學院研究員,博士生導師,機器感知與智能教育部重點實驗室副主任,大數據分析與應用國家工程實驗室常務副主任。長期致力於可視化與可視分析通用基礎方法與領域應用系統的研究,在基於地圖隱喻的社交媒體數據可視分析、任務驅動的可視化數據管理、交互式複雜數據分析、可視化的快速構建與自動化等方向做了創新的開拓工作,相關可視化研究工作成果廣泛用於流場分析、交通、社會媒體等領域。高動態範圍可視化的工作獲2005年IEEE VIS大會最佳應用論文獎,近年來指導團隊十餘項次在IEEE VAST可視分析挑戰賽中獲獎。
  • 如何通過網絡數據的獲取,做出這些數據分析項目?
    作者 | AlfredWu 來源 | Alfred數據室 最近有很多人在問,我是如何收集網絡的數據,如何進行數據處理、數據分析以及可視化呈現的。也有人問的更具體,關於Python數據分析的一些問題。到底應該怎麼學?如何快速入門,以及技術和業務之間的瓶頸如何突破?
  • 利用Python進行數據分析(三):數據預處理與建模分析
    0.前言本系列主要是利用Python進行數據採集、清洗、預處理和利用機器學習算法對數據進行建模分析,幫助建立數據分析的流程,理解機器學習算法的應用方法。由於金融數據是相對而言較為方便獲取的數據,數據類型豐富,此系列以金融數據為例,進行案例分析。
  • 從數據可視化到交互式數據分析
    與他們交談,我更好地了解到詐騙對一些人造成了多麼糟糕的影響。有些人的生活因為騙子的不法行為而被徹底毀掉了,這不僅僅是收件箱中收到垃圾郵件而已。關於「理解」你注意到了嗎?當我們談論數據分析問題時,我們經常將目標描述為「理解」某些東西。然後我們可以假設數據分析的主要目的是通過數據更好地理解某些東西。
  • 淺談數據挖掘與數據分析區別和聯繫?
    數據分析(狹義)與數據挖掘的本質都是一樣的,都是從數據裡面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業做更好的決策。從分析的過程來看,數據分析更側重於統計學上面的一些方法,經過人的推理演譯得到結論;數據挖掘更側重由機器進行自學習,直接到得到結論。從分析的結果看,數據分析的結果是準確的統計量,而數據挖掘得到的一般是模糊的結果。
  • 快速掌握SPSS數據分析
    無非就是數據類型的區別後,就能理解應該用什麼樣的分析方法,對應著分析方法無非是找一些參考資料進行即可。甚至在線網頁SPSS軟體直接可以將數據分析結果指標人工智慧地分析出來,這有多難呢?本文章將周老師(統計學專家)8年的數據分析經驗濃縮,便於讓不會數據分析的同學,在學習數據分析的過程中可以少走彎路,樹立數據分析價值觀,以及以數據進行決策的思維意識,並且可以快速的掌握數據分析。
  • 除了Excel,這個工具也能幫你快速分析數據
    而數據分析的工具,往往會隨著時間、地點、人物、事件等因素而不斷更新迭代,比如Excel,雖然目前Excel還能應付大部分工作場景,但一旦面對大量的數據和複雜表格,根本就搞不定,在效率問題上,大部分人受限於Excel的高技巧功能,無法自由快速的做表格做分析。
  • Python數據分析可視化教程學習
    本文將詳細為大家介紹Python數據分析可視化教程的具體內容,全文會圍繞著為什麼學?學什麼?學了有什麼用?這幾個問題展開,讓大家全面了解該教程適不適合自己學習。如果對數據分析感興趣就接著看下去吧!目前人類社會正在從IT時代步入大數據時代,學習Python數據分析可視化,無疑可以走在時代技術發展的最前沿,做大數據時代的弄潮兒。另外處於對自身職業規劃的需要,我們也要掌握Python數據分析可視化的技能。現在放眼望去,無處不在的數據分析師,已經成為了許多企業的核心職業。而且該Python教程包括了主流的數據分析庫,是大家學習數據分析的絕佳選擇。
  • 數據分析和數據挖掘的區別——Smartbi
    但是某些數據對各自的企業是否有用,是否重要,這就需要判斷,這也就逐漸形成數據分析這個行業,但是初入數據行業的小白估計還不清楚數據分析和數據挖掘,Smartbi知道會有很多人混淆這兩者,所以現在就來為各位講講這兩者的區別。
  • excel VS python 誰更適合數據分析?
    為什麼python更適合用於數據分析?有以下幾點理由:1、分析過程可復現使用python做數據分析,分析代碼可以保存為腳本,有利於不斷優化代碼版本,並且讓改進流程更加清晰。在不改變數據源的情況下,代碼輸出的結果一致,不會隨著時間和人員的變化而出現不同的分析結果,可復現性強。2、更高的效率和擴展性確實,excel被大多數人用於數據分析,但是面對大數據集和複雜運算,excel會把人急瘋。
  • 大數據下的數據分析平臺架構
    大數據分析的分類Hadoop平臺對業務的針對性較強,為了讓你明確它是否符合你的業務,現粗略地從幾個角度將大數據分析的業務需求分類,針對不同的具體需求,應採用不同的數據分析架構。 按照數據分析的實時性,分為實時數據分析和離線數據分析兩種。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    文章梳理了學習大數據挖掘分析的思路與步驟,給大家提供一些參考,希望能夠對你有所幫助。最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。