全文共2534字,預計學習時長7分鐘
統計數據是運用實驗數據擴展人類知識面的科學與實踐,以應用數學的一個分支——統計理論為基礎。統計理論中,隨機事件和不確定性通過概率論建模。
要想開啟一個兼具意義和效果的數據科學項目,需要深入理解原始數據和相關領域知識。初步的統計工具和可視化圖表,能幫助人們更深入、直觀地理解數據及其行為。
統計學包含許多基本概念,如描述性統計和推斷性統計。描述性統計使用均值、標準差等指標總結樣本數據,推斷性統計從隨機變化的數據中得出結論。描述性統計可用於分析人口數據,數值描述符包括均值和標準差,多用於連續數據類型(如收入),而頻率和百分比則在描述分類數據(如教育)方面更為有效。
對人口數據進行具有意義的總結時,需要推斷性統計。推斷性統計通過樣本數據模式,推斷數據所代表的人群,同時考慮隨機性。計算統計學,或統計計算,是連接統計學和計算機科學的橋梁,是具體到數理統計科學的計算科學(或科學計算)。
統計實踐包括對不確定研究對象進行整理、總結和解釋。鑑於統計數據是為了從現存數據中提取最佳信息,有的作者將統計數據視為決策理論的分支。
隨機試驗中,實驗方案中指定的隨機方式用於指導統計分析,而統計分析在實驗方案中往往也是特定的。例如,測量系統分析(MSA)是一種實驗數學方法,用於確定在測量過程中的變化對整個過程可變性的貢獻率。
本文將介紹最適用易用的統計概念,以便啟動一個成功的數據科學項目。
均值或平均值
均值或平均值是一組數字的總和除以該組數字的計數。這組數字往往是某一實驗或觀察性研究的一系列結果,或是某一調查的一系列結果。在某些情況下,「數學平均值」的說法更受青睞,因為它能很好區別於幾何平均值、調和平均值等其他平均值。
方差
方差是隨機變量偏離其平均值的平方的期望值。通俗來說,它衡量的是一組數字與其平均值的差距。方差在統計學中處於核心地位,使用場景涵蓋描述性統計、統計推斷、假設檢驗、擬合優度和蒙特卡羅抽樣。
方差分析
方差分析(ANOVA)是統計假設檢驗的一種形式,廣泛用於實驗數據分析。假設零假設是真實的,如果測試結果(依據零假設和樣本計算得出)被認為不可能是偶然發生的,那麼它就具有統計顯著性。當概率(p值)小於預先設定的臨界值(顯著性水平),統計顯著性結果便可證明拒絕零假設的合理性,但前提是零假設的先驗概率不高。
標準差
標準差衡量的是一組值的變化量或離差。低標準差表示數值大小接近集合的平均值(也稱期望值),高標準差則表示數值範圍跨度較大。
錯誤
從一個零假設出發,可識別錯誤的兩種基本形式:
· 第一類錯誤,錯誤拒絕零假設,呈現「假陽性」。
· 第二類錯誤,即原假設未能被拒絕,且總體之間的實際差異被忽略,呈現「假陰性」。
卡方檢驗(Chi-squared test)
卡方檢驗,也稱χ2檢驗,是一種統計假設檢驗,當檢驗統計量在零假設下呈卡方分布,尤其是皮爾遜卡方檢驗及其變體中,卡方檢驗有效。皮爾遜卡方檢驗用於確定在一個或多個列聯表類別中,預期頻率和實際頻率之間是否存在統計顯著性差異。
t檢驗(Student’s t-test)
如果測試統計中比例項已知,當測試統計遵循正態分布時,t檢驗最為常用。當比例項未知且被基於數據的估算替代時,測試統計遵循t分布。例如,t檢驗可用於確定兩組數據的平均值是否存在顯著差異。
皮爾遜(Pearson)相關係數
皮爾遜相關係數是兩個變量的協方差除以其標準差的乘積。該定義涉及「乘積矩」,即均值調整隨機變量的乘積的均值(關於原點的第一個矩),因此名稱中出現了修飾語積矩。
相關性和依賴性
相關性或依賴性代指兩個隨機變量或雙變量數據之間的所有統計關係,無論是否是因果關係。廣義上的相關性涵蓋所有統計關聯,雖然它通常指的是一對變量線性相關的程度。
依賴現象的常見例子包括父母及其子女身體狀況之間的聯繫,商品價格和消費者願意購買數量之間的聯繫,正如需求曲線所描述的那樣。
回歸分析
回歸分析是一系列統計過程,用於測算因變量和一個或多個自變量之間的關係。最常見的回歸分析是線性回歸,即研究人員根據特定的數學標準找到最符合數據的直線。
斯皮爾曼等級(Spearman’s rank)相關係數
兩個變量之間的斯皮爾曼相關等於這兩個變量的等級值之間的皮爾遜相關;皮爾遜相關評估線性關係,而斯皮爾曼相關評估單調關係(無論線性與否)。如果沒有重複的數據值,每個變量都是另一個變量的完美單調函數時,就會出現+1或1的完美斯皮爾曼相關。
概率論
概率論是從計算的角度對可能事件進行研究。換言之,概率論是用於分析隨機事件的數學分支。
隨機試驗中,在進行試驗之前,所有可能結果都已知,但並不確定會出現哪種結果,並且試驗可以在相同的條件下以期望的頻率進行。概率論的核心是隨機變量、隨機過程和事件。除解釋隨機現象之外,概率論還檢驗非隨機事件,這些事件通過多次重複測試,結果會遵循特定的模式。檢驗這些模式的結果是大數定律和中心極限定理。
時間序列分析
時間序列分析包括分析時間序列數據,以提取有意義的統計數據和數據的其他特徵。時間序列預測基於先前觀察值,使用模型來預測未來值。雖然回歸分析常用於檢驗一個或多個獨立時間序列的當前值對另一個時間序列當前值的影響,但這種類型的時間序列分析並不是人們所說的「時間序列分析」。
時間序列分析側重於比較單個時間序列或多個相關時間序列在不同時間點的值,中斷時間序列分析是幹預單個時間序列的分析。
想要完成一個成功的數據科學項目,以上的統計知識必不可少。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範