分布分析:研究數據的分布特徵和分布類型,分定量數據,定性數據,區分基本統計量,清晰的結構認識極差/頻率分布情況(定性,定量(離散化)/分組組距及組數餅圖柱狀圖散點圖 plt.scatter()直方圖 plt.hist pd.cut value_counts 累計頻率 cumsum2. 對比分析:兩個相互聯繫的指標進行比較
絕對數比較(相減)/相對數比較(相除)結構分析/比例分析/空間比較分析/動態對比分析3. 統計分析:統計指標對定量數據進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析
集中趨勢度量:統計平均數,算術平均數mean,位置平均數 眾數mode 中位數median,離中趨勢度量:極差,分位差,標準差,方差var4. 帕累託(貢獻度)分析:帕累託法則:20/80定律
通過二八原則,去尋找關鍵的那20%決定性因素升序排序5. 正態性檢驗:利用觀測數據判斷總體是否服從正態分布的檢驗稱為正態性檢驗,它是統計判斷中重要的一種特殊的擬合優度假設檢驗
直方圖初判histQQ圖判斷 均值 標準差 升序排序 計算分位數 p(i) = (i-0.5)/n,值是否落在四分之一到四分之三的直線K-S檢驗 是比較一個頻率分布與理論分布或者兩個觀測值分布的檢驗方法 scipy stats kstest,看p值以樣本數據的累積頻數分布與特定的理論分布比較,如果兩者差距小,則推論樣本分布來自特定分布6. 相關性分析:分析連續變量之間的線性相關程度的強弱
對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度相關性的元素之間需要存在一定的聯繫或者概率才可以進行相關性分析兩兩之間的比較圖示初判 散點圖矩陣初判多變量間關係 scatter_matrixPearson相關係數是一種線性相關係數,前提條件->正態分布,pd.corr(method='pearson')Sperman秩相關係數適用於不服從正態分布的變量/分類的關聯性,pd.corr(method='spearman')