CDA數據分析研究院原創作品, 轉載需授權
隨著網際網路迅猛發展,各大公司沉澱了很多的數據,如何找出藏在這些數據背後的規律,利用這些數據來給公司創造價值,作為一個新手面對這些問題的時候,你是不是考慮怎麼快速學習數據分析呢?
如果你的自學能力很強,那麼你可以參考網上的推薦書籍,自己拿起書本,找些案例開始學習。
如果你需要前輩的指導,那麼你可以按照CDA數據分析研究院的老師推薦的學習方法來學習數據分析:
首先,數據分析師需要三個方面的能力:技術(編程),數據分析方法,行業知識。
一、技術
主要包括excel,sql,power BI
1)技術方面就是 SQL,主要學習資料庫語言的增刪查改, 建議從mysql入手,主要學習關係資料庫管理系統,主要學習單表查詢以及多表查詢,利用資料庫進行簡單的分析
2)Excel 也是要會一點的。不過 Excel 這種常用的辦公軟體,比如說做個圖,算算總合、平均之類的,熟練使用vlookup等幾個常用函數,稍微複雜點的數據透視表 (pivot) 就夠了。
3)如果SQL 上手比較快,時間充裕,那就練練 power BI, 主要目的是看看都有什麼樣的圖表,感受一下各自適用什麼樣的場景。具體怎麼做圖不是非常重要,真要用的時候搜索一下現學就好了。最後就是學會使用power BI製作報表以及通過報表思考業務遇到的問題。
二、數據分析方法
常用的數據分析方法包括以下13種:
1. 描述統計
描述性統計是指運用制表和分類,圖形以及計算概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
2. 假設檢驗
參數檢驗
參數檢驗主要包括U驗和T檢驗
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
非參數檢驗
非參數檢驗是針對總體分布情況做的假設,
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
3. 信度分析:檢査測量的可信度,例如調查問卷的真實性。
4. 列聯表分析:用於分析離散變量或定型變量之間是否存在相關。
5. 相關分析:研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。
6. 方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
7. 回歸分析
包括:一元線性回歸分析、多元線性回歸分析、Logistic回歸分析以及其他回歸方法:非線性回歸、有序回歸、加權回歸等
8. 聚類分析:樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
9. 判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
10. 主成分分析:將彼此相關的一組指標轉化為彼此獨立的一組新的指標變量,並用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息 。
11. 因子分析:一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、並估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
12. R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪製的曲線
13. 其他分析方法
時間序列分析、生存分析、對應分祈、決策樹分析、神經網絡。
學習分析方法內容,使用方法,搞清楚這些算法的使用條件背景,你就可以輕鬆入門一名數據分析師了,在學習數據分析方法的過程中,有什麼不懂得地方可以諮詢CDA數據分析老師。也可以讓CDA數據分析老師給您做一份詳細的數據分析學習方案。
三、行業知識
這一部分就真的沒有什麼書可以看的了,基本都靠搜索,總結,思考,再搜索,總結,思考……如果平時對你的業務比較熟悉,這一部分會上手很快。
基本上把這些搞清楚,也差不多可以入門了吧。 數據分析入門並不難,入門之後的知識積累才是重點,如何在實際工作、項目中真正發揮數據分析的作用,產生價值。 希望新手學員可以儘快入門數據分析,如果有什麼不懂的地方,可以諮詢CDA數據分析研究院的老師。