編輯導語:大數據是網際網路發展到一定階段的必然產物,身處於大數據時代的我們每天都會活在一連串的數據裡。因此,為了高效併合理地運用這些數據,數據分析行業迅速崛起。到現在,越來越多的人看到了數據分析的未來和前景,本文作者總結了初學者應該掌握的數據分析知識,幫助你快速掌握數據分析技巧。
一、什麼是數據分析?
數據或信息只是一串原始的數字或字符,數據量的增加會導致各種需求的增加。
比如我們需要對數據執行檢查,進行數據清理,轉換以及數據建模,通過這些方式來達到我們需要的目的,得出相應的結論,做出正確的決策——我們把這一系列過程稱為數據分析。
在統計應用中,數據分析可以又分為探索性數據分析(EDA)和驗證性數據分析(CDA)。這二者的區別在於——EDA著重於發現數據中的新特徵,而CDA著重於確認或否定現有的假設。
探索性數據分析可以理解為一種用於找到數據間的模式相關性的分析。就像是「參考答案」的獲取,這種「參考答案」有且不限於一個。
場景包括典型的「啤酒尿布」這類數據挖掘應用,工具包括SAS、SPSS這類數據挖掘軟體以及R語言這類語言工具。
優點是有可能從一堆貌似雜亂無章的數據中找到一些相關性和模式來輔助決策;缺點是找到一些無意義的相關性,比如所有擁有結婚證的用戶都結過婚。
驗證性數據分析是當你知道了用什麼分析模型和算法,目前需要對已有的數據計算出響應結果,更類似一種「準確答案「的獲取。
應用場景就是基於多維數據倉庫的OLAP分析應用。在企業應用最廣泛的就是EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。
在企業應用最廣泛的就是EPM(Enterprise Performance Management)包括全面預算,商業智能等應用。
與"啤酒尿布」這種探索性數據挖掘應用相比,OLAP分析的結果只能是唯一的準確答案。
比如通過企業計算出的利潤率只能是一個數字,任何一家企業都不可能得出「利潤率有可能是13.2%」這樣的答案,一旦確定了一個數字,那這個數字就必然只有對和錯兩種結果,不存在第三種的可能性。
這類系統包括Oracle Hyperion、IBM Cognos以及智達方通Intcube EPM,這些都是基於多維數據倉庫的OLAP分析工具平臺。
二、數據分析的大致步驟
1. 確立目標
無論何時發生任何需求,我們首先都需要確定業務目標,評估情況,確定數據挖掘目標,然後根據需求生成項目計劃。在此階段定義業務目標。
2. 尋找數據
對於進一步的過程,我們需要收集初始數據,描述和探索數據,最後驗證數據質量以確保它包含我們所需的數據。從各種來源收集的數據將根據其應用和此階段對項目的需求進行描述,這也稱為數據瀏覽,對於驗證所收集數據的質量是必要的。
3. 數據整理
從最後一步收集的數據中,我們需要根據需要選擇數據,對其進行清理,構造以獲取有用的信息,然後將其整合在一起。
最後,我們需要格式化數據以獲取適當的數據。選擇數據,清理數據並將其集成為最終確定的格式,以便在此階段進行分析。
4. 數據建模
收集數據後,我們對其進行數據建模。為此,我們需要選擇一種建模技術,生成測試設計,構建模型並評估構建的模型。建立數據模型以分析數據中各種選定對象之間的關係,建立測試用例以評估模型,並在此階段對數據進行測試和實施。
5. 數據評估
在這裡,我們評估最後一步的結果,檢查錯誤範圍,並確定接下來要執行的步驟。我們評估測試用例的結果,並回顧此階段的錯誤範圍。
6. 部署
我們需要計劃部署,監視和維護,並生成最終報告並審查項目。在此階段,我們將部署分析結果,這也稱為審查項目。
三、數據分析的四種類型
1. 描述性分析
通過描述性分析這一手段,我們可以分析和描述數據的特徵。這是一個處理信息匯總的好方法。描述性分析與視覺分析相結合,為我們提供了全面的數據結構。
在描述性分析中,我們處理過去的數據以得出結論,並以儀錶板的形式展現出來。在企業中,描述性分析多用於確定關鍵績效指標或KPI以評估企業績效。
2. 預測分析
藉助預測分析,我們可以確定未來的結果。基於對歷史數據的分析,我們甚至可以預測未來。它利用描述性分析來生成有關未來的預測,藉助技術進步和機器學習,能夠獲得有關未來的預測性見解。
預測分析是一個複雜的領域,需要大量數據來熟練地執行預測模型及其調整從而獲得較為準確的預測,這需要我們精通機器學習並開發有效的模型。
3. 診斷分析
有時,企業需要對數據的性質進行批判性思考,並深入了解描述性分析。為了找到數據中的問題,我們需要對一些分析進行診斷。
通過診斷分析,我們可以診斷通過數據顯示的各種問題。企業使用此技術來減少損失並優化績效,企業使用診斷分析的一些示例包括:
企業實施診斷分析以減少物流延遲並優化生產流程。藉助銷售領域的診斷分析,可以更新營銷策略,否則將削弱總收入。
4. 規範分析
規範分析結合了以上所有分析技術的見解嗎,它被稱為數據分析的最終領域,規範分析使公司可以根據這些數據結論制定相關決策。
規範分析需要大量使用人工智慧,以方便公司做出謹慎的業務決策,像Facebook、Netflix、Amazon和Google之類的大公司正在使用規範分析來制定關鍵業務決策。
此外,金融機構也逐漸利用這種技術來增加進行決策。
四、數據分析可能會用到哪些工具?
基於數據分析目前良好的發展前景,各界也出現了許多好用的功能種類豐富的數據分析工具。既有面向開源的又有用戶友好型的,而以下這些工具是目前市面上比較常用且好評率較高的:
1. R
該工具是用於統計和數據建模的領先分析工具。R可以在UNIX、Windows和Mac OS等各種平臺上編譯和運行,它還提供了根據用戶要求自動安裝所有軟體包的工具。
2. Python
Python是一種開源的,面向對象的程式語言,易於閱讀,編寫和維護。它提供了各種機器學習和可視化庫,例如 Scikit-learn、TensorFlow、Matplotlib、Pandas、Keras等。
它還可以在任何平臺上進行組裝,例如SQL Server、MongoDB資料庫或JSON。
3. Tableau
這是一個免費軟體,可連接到任何數據源,例如Excel、公司數據倉庫等。然後通過網絡實時更新創建可視化效果、地圖、儀錶板等。
4. QlikView
該工具提供內存中數據處理,並將結果快速傳遞給最終用戶。它還提供數據關聯和數據可視化功能,數據壓縮到其原始大小的近10%。
5. SAS
一種用於數據處理和分析的程式語言和環境,該工具易於訪問,並且可以分析來自不同來源的數據。
6. Excel
此工具是數據分析中使用最廣泛的工具之一。該工具通常用於客戶的內部數據,它 通過透視表的預覽來分析匯總數據的任務。
7. RapidMiner
一個功能強大的集成平臺,可以與任何數據源類型(例如Acess、Excel、Microsoft SQL、Tera數據、Oracle、Sybase等)集成。該工具主要用於預測分析,例如數據挖掘、文本分析、機器學習。
8. KNIME
Konstanz Information Miner(KNIME)是一個開放源數據分析平臺,可讓您分析和建模數據。利用可視化編程的優勢,KNIME通過其模塊化數據管道概念提供了一個報告和集成平臺。
9. OpenRefine
也稱為GoogleRefine,此數據清理軟體將幫助您清理數據以進行分析,用於清除凌亂的數據,轉換數據以及從網站解析數據。
10. Apache Spark
最大的大型數據處理引擎之一,該工具在Hadoop群集中執行應用程式的內存速度快100倍,磁碟速度快10倍,該工具在數據管道和機器學習模型開發中也很流行。
五、數據分析歷史故事分享
倫敦霍亂的數據追蹤:
圖片來自網絡
約翰·斯諾(John Snow)(不是權力遊戲的角色)是一位英國醫生,他使用數據收集和數據分析來追蹤倫敦市中心霍亂暴發的根源,得出的結論是霍亂是由「水中的媒介」傳播的」,而不是通過「不良空氣」傳播的公認理論。
斯諾利用數據收集來追蹤霍亂的暴發,原因是兩家自來水公司從泰晤士河中抽取了水,而這些水幾乎沒有經過過濾。
他指出,一個巨大的雙盲實驗落入了他的大腿:
「不分男女,從各個年齡段,各個階層,不同階層,到三十萬,從紳士到窮人分為兩組,沒有他們的選擇,並且在大多數情況下,沒有他們的知識;一組被供應含有倫敦汙水的水。其中,任何可能來自霍亂患者的東西,另一組的水中完全不含這種雜質。」
斯諾對後續數據和其他工作的分析導致倫敦和其他城市的水和廢物管理發生根本變化,挽救了許多生命,並為全球公共衛生做出了重大貢獻。
六、如何成為一名數據分析師?
數據分析師收集,處理和執行大型數據集的分析。無論大小,每個企業都會生成並收集數據,這些數據可以採用客戶反饋、客戶、物流、市場研究等形式。
我認為作為一名數據分析師,至少得具備以下這些技能:
數據分析師首要的就是用數字說話:因此很明顯,數學是成為數據分析師的重要組成部分,線性代數和微積分的知識是將業務問題轉換為數學表達式所必需的。概率和統計:這些事想要成為數據分析師的必備技能,為了得出準確的結論,我們需要知道事件發生的可能性,也就是概率。為了進行推論和解釋數據,我們必須了解如何應用各種統計測試和技術。編程:絕對是數據分析的最重要組成部分之一。因此,學習一種或多種程式語言,例如Python、Java、SQL、R來進行數據管理和探索是必要的。成為一名數據分析師還不僅僅如此,以上只是必不可少的技能而已。
從根本上講,學習如何成為數據分析師與在任何行業中謀求職業生涯一樣——努力工作與成功成正比,僅僅靠天賦是不夠用的。一旦你成為了一名數據分析師,你將可能體驗以下職責:
與技術團隊,管理層和/或數據科學家一起制定目標;從主要和次要來源挖掘數據;清理和解剖數據以擺脫不相關的信息;使用統計工具和技術分析和解釋結果;查明數據集中的趨勢和模式;確定新的流程改進機會;提供管理數據報告;設計,創建和維護資料庫和數據系統;解決代碼問題和與數據有關的問題。路漫漫其修遠兮,關於數據分析的路道阻且長,最終我們仍需要自驅動去不斷學習汲取知識,這樣才能學好數據分析。
本文由 @小陳同學 原創發布於人人都是產品經理,未經許可,禁止轉載
題圖來自 Pexels,基於 CC0 協議