統計知識不容忽視:數據科學家必須了解的統計學

2020-12-07 讀芯術

全文共2415字,預計學習時長7分鐘

圖源:unsplash

數據科學初學者們常常會忽視最基礎的統計學知識,這是必須重視的大問題。這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。

1.集中趨勢度量

集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。常用的三種度量數值是:

· 均值是數據總值的平均數。

N個數據總值的均數

· 中位數是有序數據的中間值。中間數優於均值,因為它不受離群數據的影響。

· 眾數是數據中出現頻率最高的值。

2.離散趨勢度量

離散趨勢度量表現的是一組變量(數據項)的相似程度或多樣程度。度量方式包括極差、四分位數、四分位數間距、方差和標準差。

· 極差是一組數據中最大值與最小值之差。

· 四分位數 是指將指定數據集等分四份後,處於分割點的數值。下四分位數(Q1)處於下25%數值與上75%數值之間,又稱「第一四分位數」;第二四分位數是數據集的中間值,又稱「中位數」;上四分位數(Q3)處於下75%數值與上25%數值之間,又稱「第三四分位數」。

四分位數分布

四分位數間距(IQR)是第三四分位數(Q3)與第一四分位數(Q1)的差值,當數據按從小到大排列時,四分位數間距是中間50%值的間距。在度量離散時,四分位距優於極差,因為它不受離群數據的影響。

· 所有數據點(總體均值為μ)的方差,每個數據點都用Xi表示,除以數據個數N。

方差的數學方程式

· 標準差:是方差的算術平方根,總體的標準差用σ表示。在擴散程度小的數據集中,所有值都非常靠近均值,於是方差和標準差就會很小。如果一組數據很分散,距均值都很遠,方差和標準差就會很大。

3.總體與樣本

總體是指全部可用數據值。數據集的一個樣本是總體的一部分,或是它的子集。樣本數量一定比取樣的總體小。舉個例子:一個國家的所有人作為「總體」,它的子集是一個「樣本」,樣本總是小於總體。

總體與樣本的簡介圖

4.中心極限定理

中心極限定理是概率論的關鍵概念,因為它指出正態分布適用於其他分布問題的概率和統計方法。中心極限定理指:當從總體中抽取的樣本量足夠大時,那麼樣本均值就會呈現正態分布。無論總體如何分布,該定理都為真。

無論總體如何分布,樣本分布皆為正態。| 圖源:維基百科

中心極限定理的其他關鍵點:

· 樣本均值收斂於概率,並且幾乎肯定收斂於總體均值的期望值。

· 總體的方差等於樣本方差結果和每個樣本中的個數。

5.抽樣和抽樣方法

抽樣是一種統計分析方法,用來選取、操作以及分析數據點的代表子集,從而得出觀察數據總體的分布規律和趨勢。從數據中取樣有很多不同的方法,比較理想的是依靠數據集並根據當前問題選擇方法。下面是常用的抽樣方法:

· 簡單隨機抽樣:使用這個方法時,樣本中的每個值都是隨機抽取,且總體中每個值被抽取的概率完全一致。

· 分層抽樣:使用這種方法時,首先按照特性將總體分成子組(或層級)。適用於:期望使用不同方法量度各個子組,並想要保證各個子組具有代表性。

· 整群抽樣:整群抽樣中,總體的子組用作抽樣單位而非個別值。總體被分成各個子組,又稱「整群」,都是隨機抽取且都是被調查對象。

· 等距抽樣:從抽樣框中以等距的方式抽取個別值。選擇的間距要保證能提取足夠多樣本。如果從總量為x的總體中抽取n個值作為樣本,應抽取每x/n個作為樣本。

6.選擇性偏差

選擇性偏差(又稱抽樣選擇偏差)是在總體中非隨機抽樣導致的系統性錯誤,總體中一些值被研究的可能性小於其他值,樣本從而存在偏差,也就是樣本中所有值並非完全平衡或客觀。這意味著未完成真正的隨機,因此抽取的樣本並不是本想分析的總體代表。

通常情況下,僅靠對現有數據進行統計分析不能消除選擇性偏差,通過相關分析可對選擇性偏差的程度進行評估。

7.相關

相關是衡量變量(或feature或樣本或任意組)彼此關聯程度的指標。數據科學家幾乎每次做數據分析時,都會比較兩個變量並找出它們如何相互關聯。下面是最常用的相關分析方法。

· 協方差

兩個變量,一個X,一個是Y,E(X),E(Y)分別是X、Y的均值,「n」則是數據點的總個數。那麼X、Y的協方差就是:

X和Y協方差的數學計算公式

協方差標誌代表的是變量間的線性關係。

X、Y的協方差分別為正、負時的樣圖 | 圖源:Wikipedia

· 皮爾遜相關係數

皮爾遜相關係數也可以度量兩個變量的線性相關。對於兩個樣本X和Y,σX,σY是它們各自的標準差。那麼X、Y的皮爾遜相關係數是:

X、Y皮爾遜相關係數的數學方程

它的值在-1和+1之間。

變量的皮爾遜相關係數分別在-1和0,0和+1之間的樣圖
變量的皮爾遜相關係數分別為-1、0和+1時的樣圖

· 斯皮爾曼等級相關係數

斯皮爾曼等級相關係數(SRCC)用單調函數(線性或非線性)來衡量兩個樣本的依賴性,而皮爾遜相關係數只能衡量線性關係。兩個樣本之間的斯皮爾曼等級相關係數等於其等級變量之間的皮爾遜相關係數。等級是變量中觀測值的相對位置標籤。

顯然,如果觀察的兩個變量等級相近,那樣本的斯皮爾曼等級相關係數就會比較高;如果兩個變量的等級不相近,那樣本的斯皮爾曼等級相關係數則會比較低。斯皮爾曼等級相關係數大小在+1和-1之間:

· 1代表完全正相關

· 0代表不相關

· 1代表完全負相關

文中介紹的統計學中重要知識,初學者們一定要在夯實基礎階段就掌握好。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 每個數據科學家都必須了解的5大統計概念
    統計和數據科學的重要支柱任何數據科學家都可以從數據集中收集信息-任何優秀的數據科學家都將知道,紮實的統計基礎可以收集有用和可靠的信息。 沒有它,就不可能進行高質量的數據科學。以下是每個數據科學家都應該知道的前五個統計概念:描述性統計,概率分布,降維,過採樣和欠採樣以及貝葉斯統計。讓我們從最簡單的一個開始。
  • 數據分析必備——統計學入門基礎知識
    數據之路,與你同行!——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 面試必備:數據科學家必須掌握的3個統計學概念
    從某些角度上來講,如今的數據科學家基本上等於現代統計學家。在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。
  • 資源| 自學數據科學&機器學習?19個數學和統計學公開課推薦
    ——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 輕鬆快樂學統計——新書推介:《漫畫統計學》&《民生統計面面觀》
    統計數據被廣泛關注和運用,不僅成為經濟運行的「千裡眼」、政府決策的「參謀部」、企業運營的「百寶箱」,還是百姓生活的「智慧幫手」。 也許你覺得自己應該學點統計學了,但那些專業而枯燥的理論讀本正在消耗你的熱情和自信;也許你想知道那麼多統計指標對於我們每一個普通人意味著什麼,應該如何正確使用,卻無從著手。
  • 大學統計學白讀了?科學家聯名反對「統計學意義」
    一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》。
  • 統計學知識大梳理(終極篇)
    既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
  • 生物統計學-數理統計對生命的詮釋
    臨床統計學 Clinical Statistics★ 生存分析(survival analysis),主要處理臨床實驗中的個體壽命,是研究生存現象和響應時間數據及其統計規律的一門學科。該方向近二三十年來一直受到國內外統計學家的關注。
  • 關於數據科學中數學和統計學的完全指南
    數學和統計學對學習數據科學至關重要,因為這些學科構成了所有機器學習算法的基礎。成為一名數據科學家,除了對程式語言要有很好的了解,還必須要掌握機器學習算法、數據驅動方法。但數據科學並不只涉及這些領域。在本文中,您將了解數學和統計學對數據科學的重要意義以及如何將其用於建立機器學習模型。
  • 統計學:從數據入手 探尋事物內在規律
    另一部分是專業課,專業課的重點更多是讓學生從統計的角度來思考問題。主要課程有:多元統計分析、抽樣調查、運籌學、統計軟體應用等。 大數據帶火統計學 在我國,統計最早的應用就是政府。政府要通過統計手段了解整個國家的基本運行狀況。例如,政府需要通過計算居民消費指數等手段來衡量物價水平、通貨膨脹水平;通過人口普查來了解人口結構,老齡化趨勢等等。
  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    大到全國人口普查與GDP的核算,小到你我每天攝入多少卡路裡、運動消耗多少能量,都可以成為應用統計學的研究對象。你是否對每月的收入和花銷進行過統計呢?比如記錄每月開支類別,買輔導書、課外書佔比多少,買零食佔比多少?這便是屬於你的一個小小的「經濟統計」了。在大數據高速發展的今天,經濟統計學已然成為了熱門專業。
  • 想從事數據科學?統計學60分怎麼夠!
    N年後,看到數據科學發展得風生水起,並且跟數學息息相關,我暗自發誓:錯過的青春和數學我都要補回來!於是勾搭了一位數學科學家,想找他開開光。他噗嗤一笑,用飽含同情的目光看著我,鄭重地將《基本數學和數學科學統計教程》交到我手上。看了兩頁後,小編卒……沒想到,除了數學之外,想要入門數據科學,統計學也是一座必須翻過去的大山。
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    統計學上無顯著的結果並不能「證明」零假設;統計上顯著的結果也沒有「證明」某些其他假設。事實真的是這樣嗎?他們的這篇文章名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。
  • 【統計學】讓人糾結的P值
    統計學是每一個開展科學研究的人所必須掌握的知識並加以應用到實際研究工作中。
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • 如果你想轉型數據科學家,可能要掌握這幾個統計學技術
    Glassdoor利用龐大的就業數據和員工反饋信息,統計了美國25個最佳職位排行榜,其中,數據科學家排名第一。這個工作的重要性可見一斑。毫無疑問,數據科學家所做的事情是不斷變化和發展的。隨著機器學習的普遍應用,數據科學家們將繼續在創新和技術進步浪潮中獨領風騷。雖然編碼能力很重要,但數據科學並不都是研究軟體工程的。他們生活在編碼、統計學和批判性思維的交叉點上。
  • 機器學習最佳統計書籍推薦
    幾乎每一個機器學習項目中都離不開統計方法。所以需要基礎的統計相關基礎知識和方法對機器學習和AI必不可少。我們說AI不是神話,AI是數學算法,說明紮實數學基礎是做AI的必須,而統計學知識尤其是如此。這意味著重要的是要牢固掌握統計學主要發現的基礎和相關統計方法的工作知識。
  • 【獨家】考察數據科學家和分析師的41個統計學問題
    原標題:【獨家】考察數據科學家和分析師的41個統計學問題 原創 本文長度為6500字,建議閱讀20分鐘> 本文是Analytics Vidhya所舉辦的在線統計學測試的原題,有志於成為數據科學家或者數據分析師的同仁可以以這41個問題測試自己的統計學水平。
  • 統計學是什麼?| 統計學七支柱
    自誕生至今,統計學的工作內容經歷了翻天覆地的變化:從極端強調「統計學家僅收集數據而不分析」,轉變為從計劃到分析的所有研究階段皆積極尋求與科學家的合作。並且,統計學工作者面對不同的科學領域時,需要相應調整自身角色:在某些應用中,我們接受基於數學理論推導的科學模型;而某些應用中,我們構建如牛頓力學體系一樣穩定的模型。