數據分析與統計的骨幹知識點集合。
1 數據分析概述
數據分析是基於某種業務目的,有目的的處理數據,提取有價值的信息,解決各種業務問題的過程。
目的/出發點:設立目標或業務需求,明確問題方法:根據不同場景選定分析方法結果:目標解釋或業務應用(to do),創造價值1.1 數據分析流程
目的和內容:明確項目整體框架或業務問題數據收集:根據假設或問題樹收集相應數據,要求數據準確、有效;SQL、業務調整信息數據預處理:檢驗-清理,可比(例如標準化、得分轉換等),論證數據分析:方法、工具的選取數據表達:圖表數據報告:結論、建議&解決方案1.2 數據分析方法
預處理加工:描述性統計分析(數據分布、數據趨勢)、相關分析(正負相關、擬合、相關係數)基於數理統計:方差分析、回歸分析、因子分析數據挖掘:聚類(層次分析、K均值、模糊聚類、高斯回歸)、分類(決策樹、神經網絡、貝葉斯分類、SVM、隨機森林)、回歸分析(線性回歸、logistic回歸)1.3 數據分析工具
Excel-SQL、R、Python、BI、HADOOP、Spark......
2 數據趨勢
2.1 計量尺度
計量尺度是刻畫或比較數據的標準,分為四類:
定類尺度:分類,例如性別;可用 = 或 != 進行運算定序尺度:有序列分類,例如職稱級別(講師、副教授、教授);可用=、!= 或 <、>進行運算定距尺度:例如溫度;可用=、!= 或 <、>或 + 、- 進行運算定比尺度:可用於數據大小、屬性、加減乘除等;可用=、!= 或 <、>或 + 、- 、*、/ 進行運算其中,定類、定序用於刻畫定性數據;定距、定比用於刻畫定量數據。
2.2 數據集中趨勢
平均數:算法平均數、加權平均數、幾何算法平均數(幾何平均數是n個變量值連乘積的n次方根:對比率、指數等進行平均;複利下的平均年利率;連續作業的車間求產品的平均合格率)眾數:頻數最大的數據分位數:1/4;中位數;3/4位數2.3 數據離中趨勢
極值:d = max - min,可粗略檢查產品質量和穩定程度四分位點內距:IQR = Q_3 - Q_1,反映數據中間部分的差距方差variance:觀察值的離均差平方和的算術平均數;刻畫數據的波動程度和穩定性;區分總體方差和樣本方差標準差standard deviation:方差的平方根;與原始數據單位相同,較方差更易於解釋變異係數/離散係數cofficient of variation:標準差/均值 * 100;百分比形式;去量綱、比較多組數據波動程度3 數據分布和展示
3.1 數據分布
數據分布用來描述變量的概率分布,即數據在各個區間分布的多少。
可用數據偏態、數據峰度對數據分布進行描述。
3.1.1 數據偏態
對稱分布:平均數=中位數=眾數非對稱分布時即存在偏態,分為右向偏態和左向偏態右向偏態:平均數>眾數,極端值在右側,曲線向右延伸左向偏態:平均數<眾數,極端值在左側,曲線向左延伸偏態的描述方法:偏態係數SK(=0對稱分布,>0正偏態,<0負偏態)3.2.1 數據峰度
數據峰度用於刻畫數據的尖峭程度。
標準峰度:正態分布對應的標準峰度尖頂峰度:數據在眾數周圍分布較集中平頂峰度:數據在眾數周圍分布相對分散,扁平峰度描述方法:峰度係數K(=0標準峰度,>0尖頂峰度分布,<0平頂峰度分布)3.2 數據展示
條形圖:分組後統計結果的展示扇形圖:各類別佔比的分布折線圖:表示統計數據的增長變化,主要用於展示時間序列的數據直方圖:用於表示數據的分布情況盒式圖:顯示數據的離散情況,中位數、四分位數、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)上下邊緣不是極大極小值,上邊緣 = Q3 + 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)使用箱式圖判斷異常值無需假設數據服從正態分布(相比3sigma方法),並且數據抗耐高4 數理統計基礎知識
4.1 隨機變量及其概率描述
隨機現象:具有偶然性,並不總出現相同結果的事件隨機事件:隨機現象的某些基本結果組成的集合(不能確定是否發生,多次試驗結果具有規律性),使用隨機變量對隨機事件的可能性進行描述概率:預測事件發生的可能性,試驗中事件的發生次數/總試驗次數隨機變量的分布離散型:有限個點或可列出,分布類型包含二項分布、泊松分布連續型:區間;均勻分布、指數分布、正態分布條件概率:B發生時A發生的概率=AB同時發生概率/B發生的概率相互獨立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽樣4.2 常見分布類型介紹
正態分布
正態分布是對稱的,概率曲線最高點在均值處,標準正態分布是指均值為0,標準差為1的正態分布、
3sigma準則:質量檢測、剔除異常值
z標準化:將正態分布轉化為標準正態分布
卡方分布
用於卡方檢驗
若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布
t分布
t分布是一簇曲線,其形態變化與n(確切地說與自由度df)大小有關。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標準正態分布(u分布)曲線。
t檢驗、獨立性檢驗等
F分布
用於方差分析、方差檢驗
4.3 大數定律&中心極限定理
大數定律
在隨機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。
中心極限定理
對於任何分布的總體,若樣本容量較大,能夠用正態概率分布來近似樣本均值的抽樣分布。
通常樣本容量達到30(樣本中的單位數達到30)即可滿足定理的大樣本條件。
5 抽樣估計
5.1 抽樣概念引入
抽樣:使用局部估計整體
總體相關概念
總體:根據研究目標確定的對象全體,未必是全量用戶總體指標:均值、比重結構等個體:總體中的每個元素,具有同質性(滿足同一研究目標)、大量、差異性;個體總數稱為總體容量N樣本相關概念
樣本:隨機從總體中抽取的部分個體樣本指標:樣本均值、樣本方差樣本容量:樣本中的個體數量抽樣估計:利用樣本指標估計總體值班表
要求:隨機性、獨立性
5.2 區間估計
相關指標
置信區間:精確性置信係數:可靠性顯著性水平:alpha,表示不可靠概率檢驗統計量
根據樣本容量不同、估計均值或比例的不同,選取不同的檢驗統計量
大樣本——z分布
小樣本——t分布
6 假設檢驗
6.1 概念
通過樣本數據檢驗對總體的假設。
基本思想:反證法,基於小概率時間不發生的準則和總體的假設,根據樣本數據獲得的樣本統計量分布,得到抽樣過程中的極端或錯誤現象的小概率時間,從而做出對假設的否定判斷。
假設:原假設、備擇假設
6.2 假設檢驗方法
建立假設:通常希望證偽的假設作為原假設,反之為備擇假設選擇檢驗統計量:確定拒絕域:給定顯著性水平,從而確定拒絕域計算檢驗統計量,做出判斷:計算結果落在拒絕域中,則表明小概率事件發生,拒絕原假設6.3 常見檢驗統計量
Z檢驗:統計量滿足正態分布。用於單個正態總體均值檢驗;兩個正態總體均值之差檢驗,方差已知;t檢驗:統計量滿足t分布。單個正態總體均值檢驗,方差未知;兩個正態總體均值/比例檢驗,方差相等但未知(同一群體的兩次實驗);兩個正態總體均值/比例檢驗,方差不等且未知(AB測試)卡方檢驗:統計量服從卡方分布,樣本來自正態總體,用於單個正態總體方差檢驗;F檢驗:統計量服從F分布,樣本數據來自兩個正態總體,用於兩個正態總體方差檢驗。Z、t檢驗用於均值或比例檢驗,卡方和F檢驗用於方差檢驗
7 方差分析
方差分析用來描述多個總體的差異性,檢驗多個總體均值是否相同。
通過檢驗各總體均值是否相等來判斷分類型自變量對數值型因變量是否有顯著性影響。