全文共2415字,預計學習時長7分鐘
數據科學初學者們常常會忽視最基礎的統計學知識,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。
1.集中趨勢度量
集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。常用的三種度量數值是:
· 均值是數據總值的平均數。
· 中位數是有序數據的中間值。中間數優於均值,因為它不受離群數據的影響。
· 眾數是數據中出現頻率最高的值。
2.離散趨勢度量
離散趨勢度量表現的是一組變量(數據項)的相似程度或多樣程度。度量方式包括極差、四分位數、四分位數間距、方差和標準差。
· 極差是一組數據中最大值與最小值之差。
· 四分位數 是指將指定數據集等分四份後,處於分割點的數值。下四分位數(Q1)處於下25%數值與上75%數值之間,又稱「第一四分位數」;第二四分位數是數據集的中間值,又稱「中位數」;上四分位數(Q3)處於下75%數值與上25%數值之間,又稱「第三四分位數」。
四分位數間距(IQR)是第三四分位數(Q3)與第一四分位數(Q1)的差值,當數據按從小到大排列時,四分位數間距是中間50%值的間距。在度量離散時,四分位距優於極差,因為它不受離群數據的影響。
· 所有數據點(總體均值為μ)的方差,每個數據點都用Xi表示,除以數據個數N。
· 標準差:是方差的算術平方根,總體的標準差用σ表示。在擴散程度小的數據集中,所有值都非常靠近均值,於是方差和標準差就會很小。如果一組數據很分散,距均值都很遠,方差和標準差就會很大。
3.總體與樣本
總體是指全部可用數據值。數據集的一個樣本是總體的一部分,或是它的子集。樣本數量一定比取樣的總體小。舉個例子:一個國家的所有人作為「總體」,它的子集是一個「樣本」,樣本總是小於總體。
4.中心極限定理
中心極限定理是概率論的關鍵概念,因為它指出正態分布適用於其他分布問題的概率和統計方法。中心極限定理指:當從總體中抽取的樣本量足夠大時,那麼樣本均值就會呈現正態分布。無論總體如何分布,該定理都為真。
中心極限定理的其他關鍵點:
· 樣本均值收斂於概率,並且幾乎肯定收斂於總體均值的期望值。
· 總體的方差等於樣本方差結果和每個樣本中的個數。
5.抽樣和抽樣方法
抽樣是一種統計分析方法,用來選取、操作以及分析數據點的代表子集,從而得出觀察數據總體的分布規律和趨勢。從數據中取樣有很多不同的方法,比較理想的是依靠數據集並根據當前問題選擇方法。下面是常用的抽樣方法:
· 簡單隨機抽樣:使用這個方法時,樣本中的每個值都是隨機抽取,且總體中每個值被抽取的概率完全一致。
· 分層抽樣:使用這種方法時,首先按照特性將總體分成子組(或層級)。適用於:期望使用不同方法量度各個子組,並想要保證各個子組具有代表性。
· 整群抽樣:整群抽樣中,總體的子組用作抽樣單位而非個別值。總體被分成各個子組,又稱「整群」,都是隨機抽取且都是被調查對象。
· 等距抽樣:從抽樣框中以等距的方式抽取個別值。選擇的間距要保證能提取足夠多樣本。如果從總量為x的總體中抽取n個值作為樣本,應抽取每x/n個作為樣本。
6.選擇性偏差
選擇性偏差(又稱抽樣選擇偏差)是在總體中非隨機抽樣導致的系統性錯誤,總體中一些值被研究的可能性小於其他值,樣本從而存在偏差,也就是樣本中所有值並非完全平衡或客觀。這意味著未完成真正的隨機,因此抽取的樣本並不是本想分析的總體代表。
通常情況下,僅靠對現有數據進行統計分析不能消除選擇性偏差,通過相關分析可對選擇性偏差的程度進行評估。
7.相關
相關是衡量變量(或feature或樣本或任意組)彼此關聯程度的指標。數據科學家幾乎每次做數據分析時,都會比較兩個變量並找出它們如何相互關聯。下面是最常用的相關分析方法。
· 協方差
兩個變量,一個X,一個是Y,E(X),E(Y)分別是X、Y的均值,「n」則是數據點的總個數。那麼X、Y的協方差就是:
協方差標誌代表的是變量間的線性關係。
· 皮爾遜相關係數
皮爾遜相關係數也可以度量兩個變量的線性相關。對於兩個樣本X和Y,σX,σY是它們各自的標準差。那麼X、Y的皮爾遜相關係數是:
它的值在-1和+1之間。
· 斯皮爾曼等級相關係數
斯皮爾曼等級相關係數(SRCC)用單調函數(線性或非線性)來衡量兩個樣本的依賴性,而皮爾遜相關係數只能衡量線性關係。兩個樣本之間的斯皮爾曼等級相關係數等於其等級變量之間的皮爾遜相關係數。等級是變量中觀測值的相對位置標籤。
顯然,如果觀察的兩個變量等級相近,那樣本的斯皮爾曼等級相關係數就會比較高;如果兩個變量的等級不相近,那樣本的斯皮爾曼等級相關係數則會比較低。斯皮爾曼等級相關係數大小在+1和-1之間:
· 1代表完全正相關
· 0代表不相關
· 1代表完全負相關
文中介紹的統計學中重要知識,初學者們一定要在夯實基礎階段就掌握好。
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範