統計學 5 個基本概念,你知道多少?

2020-12-01 騰訊網

本文講述了數據分析師應當了解的五個統計基本概念:統計特徵、概率分布、降維、過採樣/欠採樣、貝葉斯統計方法。

從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。

利用統計學,我們可以更深入、更細緻地觀察數據是如何進行精確組織的,並且基於這種組織結構,如何能夠以最佳的形式來應用其它相關的技術以獲取更多的信息。今天,我們來看看數據分析師需要掌握的5個基本的統計學概念,以及如何有效地進行應用。

1

特徵統計

特徵統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特徵統計並且在代碼中實現都是非常容易的。請看下圖:

上圖中,中間的直線表示數據的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即數據中的25%要低於該值。第三個四分位數是第七十五百分位數,即數據中的75%要低於該值。而最大值和最小值表示該數據範圍的上下兩端。

箱形圖很好地說明了基本統計特徵的作用:

當箱形圖很短時,就意味著很多數據點是相似的,因為很多值是在一個很小的範圍內分布;

當箱形圖較高時,就意味著大部分的數據點之間的差異很大,因為這些值分布的很廣;

如果中位數接近了底部,那麼大部分的數據具有較低的值。如果中位數比較接近頂部,那麼大多數的數據具有更高的值。基本上,如果中位線不在框的中間,那麼就表明了是偏斜數據;

如果框上下兩邊的線很長表示數據具有很高的標準偏差和方差,意味著這些值被分散了,並且變化非常大。如果在框的一邊有長線,另一邊的不長,那麼數據可能只在一個方向上變化很大

2

概率分布

我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在數據科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那麼,概率分布就是表示所有可能值出現的機率的函數。請看下圖:

常見的概率分布,均勻分布(上)、正態分布(中間)、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個只出現在一定範圍內的值,而在該範圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量:0或另一個值。分類變量可能具有除0之外的多個值,但我們仍然可以將其可視化為多個均勻分布的分段函數。

正態分布,通常也稱為高斯分布,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分布的,而標準偏差控制著它的分布擴散範圍。與其它的分布方式的主要區別在於,在所有方向上標準偏差是相同的。因此,通過高斯分布,我們知道數據集的平均值以及數據的擴散分布,即它在比較廣的範圍上擴展,還是主要圍繞在少數幾個值附近集中分布。

泊松分布與正態分布相似,但存在偏斜率。象正態分布一樣,在偏斜度值較低的情況下,泊松分布在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的數據在不同方向上的擴散將會是不同的。在一個方向上,數據的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分布,那麼我們知道有很多算法,在默認情況下高思分布將會被執行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。

3

降維

降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在數據科學中,這是特徵變量的數量。請看下圖:

上圖中的立方體表示我們的數據集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數據,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數據展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以通過特徵剪枝來減少維數。利用這種方法,我們刪除任何所看到的特徵對分析都不重要。例如,在研究數據集之後,我們可能會發現,在10個特徵中,有7個特徵與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那麼,這3個低相關性的特徵可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。

用於降維的最常見的統計技術是PCA,它本質上創建了特徵的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。

4

過採樣和欠採樣

過採樣和欠採樣是用於分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給數據建模並進行預測。那麼,過採樣和欠採樣可以應對這種情況。請看下圖:

在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。

欠採樣意味著我們將只從樣本多的分類中選擇一些數據,而儘量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數據集更均衡。

過採樣意味著我們將要創建少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被製作成保持少數分類的分布。我們只是在沒有獲得更多數據的情況下讓數據集更加均衡。

5

貝葉斯統計

完全理解為什麼在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到「概率」這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的數據是先驗數據(prior data)。

假設我給了你一個骰子,問你擲出6點的機率是多少,大多數人都會說是六分之一。

但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數據,而給你作弊的骰子的因素並沒有被考慮進去。

貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關於事件發生概率的數據。方程中的P(E|H)稱為可能性,根據頻率分析得到的信息,實質上是現象正確的概率。例如,如果你要擲骰子10000次,並且前1000次全部擲出了6個點,那麼你會非常自信地認為是骰子作弊了。

如果頻率分析做的非常好的話,那麼我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基於其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你覺得之前的數據不能很好地代表未來的數據和結果的時候,就應該使用貝葉斯統計方法。

作者:George Seif

來源:CSDN

Python學習交流群

相關焦點

  • 面試必備:數據科學家必須掌握的3個統計學概念
    在數據科學面試中,我們也少不了要面對統計學相關的知識。以下是數據科學相關面試中最頻繁出現的三種統計學問題,它們是許多數據科學應用程式的基本構建模塊。還有一些非常重要的統計學概念本文沒有提到,比如中心極限定理,但是在提及概率分布時它仍然是不可或缺。接下來就開始吧!1.
  • 第四篇 人群健康研究的統計學方法--第十六章 統計學方法基本概念...
    第四篇 人群健康研究的統計學方法   統計學是研究數據搜集、整理與分析的科學,是認識社會和自然現象數量特徵的重要工具。合理的統計分析能幫助我們正確認識事物客觀存在的規律性。基礎醫學、臨床醫學和預防醫學各個方面的科學研究以及醫療衛生實踐和居民健康狀況研究,都需要根據設計去搜集、整理資料進行合理的統計分析。
  • 人人都需要掌握的 5 個基本統計概念
    從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受眾一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。
  • 【統計學】讓人糾結的P值
    關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。
  • 你真的懂了什麼是統計學嗎?其實統計學也是科學思維的訓練
    孫振球主編的醫學統計學 醫學統計學其實是一門非常考驗個人邏輯思維能力的學科。從醫學統計學的定義裡我們可以完全貫穿基礎統計學的所有章節。從統計描述到統計推斷,各個章節內容嚴整,無毫髮爽。其實醫學統計學也是如此,我們不僅僅需要掌握每一種統計學方法的定義、使用條件,更需要的是在實驗設計階段或者在給出的待處理的數據面前找到適合它們的正確的統計學方法,這才不失為一個成功運用統計學的醫學人才。這裡面不僅僅需要完整的貫穿於整個基礎統計的邏輯思維,也需要我們能夠「照方抓藥」,我覺得這是非統計學專業的醫學工作者學習醫學統計學的最根本的目標。
  • 統計學的十個法則
    這本書是講統計學的,但一個數學公式都沒有,它給我們提供了10個統計學的法則和教訓,值得我們好好理解,並且在面對統計數據的時候可以拿出來提醒自己。所以今天咱們就來把這10個法則複習一下。祝你每天都有收穫。
  • 人人都需要掌握的 5 個基本統計概念 | 網際網路數據資訊網-199IT |...
    從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受眾一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。
  • 19個數學和統計學公開課推薦
    後來他想,做點應用數學應該是個有趣的變化。——數學家 John Edensor Littlewood數學和統計學是數據科學和機器學習的基礎。就我所知,大多數成功的數據科學家都來自這些領域——計算機科學、應用數學和統計學、經濟學。如果你想掌握數據科學,你就必須要對基本代數和統計學有很好的了解。但是,對於沒有數學背景的人來說,起步之路可能會舉步維艱。
  • 統計學公開課大盤點
    課程本身深入淺出的介紹了統計學的大多數基本概念,只要認真回答每節課的小問題,同時認真完成homework, 包括用python寫個小的統計程序,應該會大有收穫。 MOOC學霸@wzyer對這門課程的評價是:課程本身內容很不錯,涵蓋了統計基本的知識點。不過也許是Udacity風格的問題吧,聽完之後感覺有些不夠系統。
  • 關於深度學習你必須知道的幾個信息理論概念
    資訊理論可以看作是微積分、概率論和統計學這些深度學習基本組成部分的複雜融合。我們能否有一個數學測量方法告訴我們第二句話與第一句話相比多了多少信息?科學家們一直在努力解決這些問題。語義,域和數據形式只會增加問題的複雜性。數學家和工程師克勞德·香農提出了「熵」的概念,它永遠改變了我們的世界,這標誌著數字資訊時代的開始。
  • 做實驗需要掌握哪些統計學知識?
    統計學是數據分析的基石。學了統計學,你會發現很多時候的分析並不靠譜。
  • 你真的懂p值嗎? 說人話的統計學
    ►面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?►你的反應多半會是:「說人話!」►好好好,那咱們來舉個例子:假設明天就要宿舍衛生檢查了,可同住一屋的藍精靈和格格巫都不想搞衛生,在一番謙(si)讓(bi)之後,格格巫掏出一塊看起來很無辜的鋼蹦兒,提議這事兒交給老天爺決定:正面藍精靈做,反面他做。被格格巫坑過或試圖坑過不止一次的藍精靈心想,這鋼蹦兒會不會不太對勁,拋出來正反面的可能性不一樣大?
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    通過把所得到的統計檢定值,與統計學家建立了一些隨機變量的概率分布(probability distribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?為此,我們進行t檢定,算出一個t檢定值。與統計學家建立的以「總體中沒差別」作基礎的隨機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。
  • 顯著性——統計學帶給投資的重要啟示
    那麼,我們如何知道某個結論是真實規律還是臆想、是偶然還是必然?有沒有一種方法可以甄別?統計學中,有一個非常重要的概念,叫顯著性,它就是用來衡量某種結論的可靠性,或者用來判斷某種現象是必然因素的影響還是偶然因素的影響。在各學科的學術論文裡幾乎都會出現這個詞,沒學過統計學的可能有點暈,簡單地說,說某個結論顯著,意思就是該結論不是偶然出現,是規律性地體現。
  • 統計學知識大梳理(終極篇)
    如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發生在你身上。既然統計學這麼厲害,這麼牛逼,這麼重要。作為統計學專業的我,我就忍不住要給大家好好梳理下統計學的知識框架,並且帶著大家一點一點的學習下統計學和概率論的知識。在今後的關於統計學的文章中,我努力實現以下幾個小目標。
  • 那些反直覺的統計學悖論(下)
    我們試著改個方式來促銷,所有顧客吃完飯,都可以擲一次骰子,擲出三個6的話,這頓飯免單。擲出三個6的概率是多少?1/6*1/6*1/6=1/216,算成打折相當於打千分之五折,遠不如前面的九五折實惠嘛。但是,因為「迷戀小概率事件」的心理,很多顧客一定會摩拳擦掌試一試,萬一中了呢?
  • 大數據面前,統計學的價值在哪裡
    參與實驗的這100人不知道自己的編號,也不知道究竟有多少人參加了這次實驗。換句話說,他們不知道參加這次實驗的正好是50個男人和50個女人,受訪者僅僅知道,這次實驗有很多人參加。  在這裡統計人員採取了一點小花招,就是當受訪者進門的時候,把編號貼在受訪者後背上,受訪者知道自己有編號,但是不知道自己的編號是多少,不過他能夠看到別人後背上的編號。
  • 統計學的實質是什麼?--寫給所有將要或者正在學習統計學的朋友們
    無論你正在、將要或者已經完成學習統計學,我都推薦你們耐心閱讀。我分5點來介紹統計學的實質1.統計學的本質;2.統計學是數學嗎?3.統計學是抽樣研究;4.統計學是經濟學;5.統計學核心是研究變量與變量之間的關係。
  • 麻省理工大學統計學你了解多少?
    雖然統計學從屬於數學類,但是從美國大學的設置來看,統計已經慢慢從數學系中獨立出來,成為單獨的統計系。現在越來越多的學校成立統計系就是最好的證明。在科學技術飛速發展的今天,統計學廣泛吸收和融合其他學科的新理論,不斷開發應用新技術和新方法,深化和豐富了統計學傳統領域的理論與方法,並拓展了新的領域。 今天的統計學已展現出強有力的生命力。因此統計學研究方向也是百花齊放,但是由於統計本身已經是數學的一個分支,因此統計學研究方向顯得很分散。 參考美國幾所典型的統計學學校,我們可以對統計學研究方向加以總結。
  • 你有沒有想過,你可能高估了統計學(二)
    在前一節【你有沒有想過,你可能高估了統計學(一)】,我們聊到了統計學的無所不在和它的趣味盎然。從《赤裸裸的統計學》這本書中,我們還會發現統計學不為人知的另一面。-3- 會欺騙人的統計學我們從網站上、報紙上會看到各行各業的統計數字,有一些數字讓你覺得可信,有一些卻會讓你產生懷疑。不要懷疑,統計數字的確可能會欺騙你。