機器學習從入門到進階丨假設檢驗

2021-01-12 騰訊網

在上一篇的文章中,我們討論了統計學習的關鍵概念——參數模型、訓練與測試、方差與偏差等等,今天我們再來看一看機器學習的基石概念之一假設檢驗。

著名的物理學家愛德華·特勒曾說:

「A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.」

事實是每個人都相信的簡單陳述。它是無辜的,除非被證偽。假設則是沒人願意相信的新穎建議。它是有錯的,除非被驗證有效。

假設檢驗的應用在數據科學中佔重要地位,對它的簡化和解構是非常必要的。就像犯罪小說的故事一樣,基於數據的假設檢驗,將把一個新穎的建議引向一個有效的命題

概念

「假設」(hypothesis)一詞源自希臘詞語hupo(under)和thesis(placing),意思是基於有限的證據得出的想法。它是進一步調查分析的起點。

該概念非常簡單,但也非常強大。我們每天都在應用假設建議,它通常按照如下7個步驟進行:

1

做出假設

2

設定原位置

3

確定備擇位置

4

設置驗收標準

5

進行基於事實的測試

6

評估結果:評估是否支持原位置?確定結果不是偶然的?

7

達到以下結論之一:拒絕原位置以支持備擇位置,或者無法拒絕原位置

以一個故事來進一步解釋假設檢驗的概念。霍爾馬維克是冰島西部的一個小鎮,這個小鎮的獨特之處,是因其巫術博物館而聞名。即使現在,那裡也有人自稱是巫師。伊西爾德和甘道夫就是這樣的人。

他們聲稱擁有超感視覺,能夠透視任何物體。於是一些研究人員想要驗證他們的能力,讓他們玩一種叫做透視紙牌的遊戲。

該遊戲的規則如下:

向伊西爾德和甘道夫展示10張紙牌的背面,這張牌是從四副撲克牌中隨機選出的;

他們必須確認每張紙牌屬於哪副牌;

每個人進行10次重複測試。

已經經過測試的是,普通人能夠預測正確的平均次數在6次左右,這就是本次假設檢驗的基礎。而本次檢驗將基於統計確定伊西爾德和甘道夫是否是巫師。

1

做出假設

不同種類的假設檢驗需要不同的假設。而假設與數據的分布、採樣以及線性有關。一些常見的假設如下:

分布: 每種數據都會遵循特定的分布,需要掌握數據中的規律。許多自然發生的數據點如股票市場數據、人的體重和身高、在酒吧喝酒的人的薪水等等都近似正態分布。正態分布只是意味著很多觀測值都在中間位置,較少的觀察值大於或小於中間值。中間值也稱為中位數。

採樣:預設為檢驗採樣的數據是隨機選擇的,沒有偏見。

對於上述透視紙牌遊戲,以下假設是正確的:

在透視卡牌遊戲中,所選紙牌的分布將是正態分布的。這是真的,因為這些紙牌是隨機選擇的。隨機選擇紙牌意味著,被選出的10張紙牌中的每一張都具有相同的被選擇的概率。

在該問題中,紙牌沒有偏見。

2

零假設 NULL Hypothesis (Ho)

零假設是假設驗證的初始情況,也就是當下的狀態。其在整個假設驗證的過程中處於需要驗證和測試的位置,可能被拒絕,或者不能被拒絕。

對於上述紙牌遊戲來說,空假設如下:

伊西爾德/甘道夫並沒有超感視覺。

3

備擇假設 The Alternate Hypothesis (Ha)

備擇假設和零假設正好是相反的。如果統計學獲得的證據正好證明備擇假設是有效的,那麼零假設就是被拒絕的。

對於上述紙牌遊戲,備用假設如下:

伊西爾德/甘道夫具有超感視覺。

4

設置驗收準則 Acceptance Criteria

零假設和備擇假設定義好之後,初始位置為零假設。現在需要設定一個閾值,我們知道一個普通人,即不是巫師的人會在10次中預測正確6次。如果伊西爾德和甘道夫能夠在測試中預測超過6張正確的紙牌,那麼有更多的證據表明他們確實可能是巫師。有一種度量評估方法叫做t-統計(t-statistics),用於計算估計值與假設值的差距,t值越高則備擇假設的可能性就越高。

假設檢驗的結果也可能會錯。有四種可能的情況:

測試發現,伊西爾德和甘道夫具有超感視覺,他們是巫師;

測試發現,伊西爾德和甘道夫沒有超感視覺,他們不是巫師;

測試發現,伊西爾德和甘道夫具有超感視覺,他們不是巫師;

測試發現,伊西爾德和甘道夫沒有超感視覺,他們是巫師。

測試的結果可能顯示結論1和結論2是正確的,結論3和結論4是無效的。

如果結論3屬實,這樣會導致拒絕零假設,屬於假陽性(false positive),此類情況也稱為Ⅰ型錯誤

如果結論3無效,這樣會接受零假設,屬於一種假陰性(false negative),此類情況稱為Ⅱ型錯誤

和所有的統計檢驗一樣,假設驗證也必須面對不確定性,也就是概率。萬事無絕對。

對於概率來說,需要設定概率水平(probability level),以便確定發生I型錯誤的可能性,這個水平被稱為顯著性水平,使用α來代表α越低意味著測試越嚴格,相對較高的α意味著測試不是那麼嚴格。α的值是根據假設檢驗的性質設定的,典型值為0.001、0.05或0.1。

如果所觀察到的結果僅僅是偶然的呢?如果只是一個巧合呢?如果他們在測試進行的那一天剛好走運了呢?這種不確定性需要得到度量,假設檢驗有一個衡量這種不確定性的指標,就是p值

p值表示為概率。這意味著它的值在0和1之間。p值是在假設為真的情況下由於偶然性而觀測到t統計量的可能性(即被檢驗者是靠運氣預測正確的可能性)。

對於透視紙牌遊戲,決定如果伊西爾德可以正確猜測超過8張牌,那麼備擇假設是合理的。他可能確實是一位千裡眼。t統計量為8。

擁有超感視覺的人是沒有生命危險的。沒有人處於危險之中。顯著性水平設定為0.05。α是0.05。

5

進行測試

通過重複十次的測試和驗證,得到了一些結果。通過對數據的統計計算,最終得到如下的結果:

伊西爾德:

t-統計:8

P值:0.1

甘道夫:

t-統計:9

P值:0.01

6

評估結果

概率(p值)和顯著性水平之間的比較產生以下結果:

伊西爾德:

t統計值為8,這意味著,他平均正確預測了八張牌,顯著高於正常人的預測結果。

p值是0.1,這意味著觀察到的t統計數據歸因於偶然性的概率是10%。p值很高。

設定的顯著性水平(α)是0.05,轉化為5%。

p值高於設定的顯著性水平,即10%> 5%。

甘道夫:

t統計值為9,這意味著,他平均正確預測了9張牌,顯著高於正常人的預測結果。

p值是0.01,這意味著觀測到的t統計數據歸因於偶然性的概率只有1%。

設定的顯著性水平(α)是0.05,轉化為5%。

p值低於設定的顯著性水平,即1%>小於5%。

7

得出結論

測試已結束,指標是已知的。誰是真正的巫師呢?

對於伊西爾德:p值高於設定的顯著性水平(10%> 5%)。儘管平均而言,他已經正確預測了八張牌,但從統計上,結論如下:

伊西爾德的結論:

沒有實質證據反對零假設,;零假設未被拒絕。

對於甘道夫:平均而言,他正確預測了九張牌。p值低於設定的顯著性水平(1%

甘道夫的結論:

有很好的證據反對零假設,零假設被拒絕,備選假設被接受。

最終,伊西爾德震驚失望,而甘道夫得意洋洋。然而,伊西爾德也可以自我安慰,檢驗測試並沒有確定他不是具有超感視覺的巫師。零假設沒有被拒絕,並不意味著備擇假設就是錯誤的,這只能說明還沒有足夠的證據來確定零假設是無效的。在現實中,這樣的情況普遍存在。

結語

假設檢驗是機器學習的基礎概念之一,很多評估方法使用假設檢驗來評估模型的魯棒性。在本系列文章中,我們還將繼續深入解讀。

相關焦點

  • 機器學習從入門到進階丨統計學習的關鍵概念
    然後,將深入到統計學習的關鍵概念,了解統計學習。 機器學習是通過軟體應用程式實現統計學習技術的一種體現。 這在實踐中意味著什麼?統計學習是指讓我們能夠更好地理解數據的工具和技術。那麼理解數據意味著什麼?
  • 機器學習從入門到進階丨雙對數回歸模型
    假設我們有一個函數:Q = f(P),那麼Q的彈性定義為: E = P/Q × dQ/dP dQ/dP是P變化所引起的Q的平均變化 ■結合在一起 現在讓我們把導數、對數和指數這三個數學概念放在一起看
  • t檢驗 機器學習_機器學習 t 檢驗 - CSDN
    假設檢驗常見的假設檢驗有:T檢驗(Student’s t Test),F檢驗(方差齊性檢驗),卡方驗證等。無論任何假設檢驗,它們都遵循如下圖所示的流程:做兩個假設:一般如果假設對象是兩組樣本的話,都會假設這兩組樣本均值相等(T檢驗的假設),方差滿足齊次性(F檢驗的假設)等。而另一個假設其實就是兩組樣本均值不相等(T檢驗的假設),方差不滿足齊次性(F檢驗的假設)等,其實這兩個假設就是一對非此即彼的選項。這兩個假設在教科書上就叫做原假設H_0,和備擇假設H_1。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。第一階段:Excel數據分析每一位數據分析師都脫離不開Excel。它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。
  • 假設檢驗的區別 - CSDN
    我們不斷地核對數字,對大流行將如何發展做出自己的假設,並對何時出現「高峰」提出假設。不僅是我們在進行假設構建,媒體也在這方面蓬勃發展。幾天前,我讀到一篇新聞文章,其中提到這次疫情「可能是季節性的」,在溫暖的環境下會有所緩解:
  • crimaster犯罪大師入門篇2進階答案是什麼?入門篇2進階答案大全...
    crimaster犯罪大師入門篇2進階第三題的答案是什麼?入門篇2進階問題的答案是什麼?入門篇2進階需要我們根據線索在一張英文字母表中尋找答案。我們需要坎通字母對應的秘鑰才能找到合理的答案。下面就來圖文詳解的為大家介紹。
  • 線性回歸假設檢驗專題及常見問題 - CSDN
    我們可以注意到 前面(一個紅線)是一個固定的值,後面(兩個紅線)才是變量。2.5 假設檢驗除了置信區間外,還可以使用假設檢驗來得到更有把握的結果。具體來說,我們剛剛得到了 a 的估計值,但是我們不知道 a 的真實值是多少。那麼我們可以做一個假設,比如我們假設 a = 0 。
  • 盤點| 機器學習入門算法:從線性模型到神經網絡
    原標題:盤點 | 機器學習入門算法:從線性模型到神經網絡 選自Dataconomy 機器之心編譯 參與:王宇欣、吳攀、蔣思源幾十年來,機器學習實際上已經變成了一門獨立的領域。由於現代計算能力的進步,我們最近才能夠真正大規模地利用機器學習。而實際上機器學習是如何工作的呢?答案很簡單:算法(algorithm)。 機器學習是人工智慧(artificial intelligence)的一種,其本質上講,就是計算機可以在無需編程的情況下自己學習概念(concept)。
  • 假設檢驗、Z檢驗與T檢驗
    不僅是我們在進行假設構建,媒體也在這方面蓬勃發展。幾天前,我讀到一篇新聞文章,其中提到這次疫情「可能是季節性的」,在溫暖的環境下會有所緩解:所以我開始想,關於冠狀病毒,我們還能假設什麼呢?成人是否更容易受到冠狀病毒爆發的影響?
  • 如何入門Python與機器學習
    本文引用地址:http://www.eepw.com.cn/article/201710/365207.htm  「機器學習」在最近雖可能不至於到人盡皆知的程度,卻也是非常火熱的詞彙。機器學習是英文單詞「Machine Learning」(簡稱ML)的直譯,從字面上便說明了這門技術是讓機器進行「學習」的技術。
  • 假設檢驗的邏輯
    科學研究是去偽存真的過程,假設檢驗則是實現這一過程的基本方法。
  • 入門| 機器學習新手必看10大算法
    原標題:入門 | 機器學習新手必看10大算法 選自TowardsDataScience 作者:James Le 機器學習算法被描述為學習一個目標函數 f,該函數將輸入變量 X 最好地映射到輸出變量 Y:Y = f(X) 這是一個普遍的學習任務,我們可以根據輸入變量 X 的新樣本對 Y 進行預測。我們不知道函數 f 的樣子或形式。
  • 統計學中的假設檢驗
    假設檢驗的特點就是採用邏輯上的反證法和依據統計上 的小概率原理。小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。在假設檢驗中,我們做出判斷時所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬於小概率事件,那麼可以認為原假設不可信,從而否定它,轉而接受備擇假設。
  • excel假設檢驗 - CSDN
    假設檢驗顯著性水平的兩種理解:1. 顯著性水平:通過小概率準則來理解,在假設檢驗時先確定一個小概率標準----顯著性水平;用 原假設與備用假設H0:原假設,零假設----零是相關係數為0,說明兩個變量無關係H1:備用假設如何設置原假設:1)H0與H1是完備事件組,相互對立,有且只有一個成立2)在確立假設時,先確定備設H1
  • 讓你成為統計大師的假設檢驗指南
    CDA數據分析師 出品簡介–思維方式的差異當一個人MIS專業人士的身份開始了職業生涯,然後進入商業智能(BI),隨後進入了商業分析,統計建模以及機器學習領域。這些轉換中的每一個都會要求改變如何關於看待數據的思維方式。
  • 假設檢驗的基本步驟
    假設檢驗的基本步驟  假設檢驗的基本思想是:根據所獲樣本,運用統計分析方法,對總體X的某種假設 做出接受或拒絕的判斷。在這裡,備擇假設還可能有兩種設置形式,它們是:  : <1.40或 : >1.40  備擇假設的不同將會影響下面拒絕域的形式,今後稱  對 的檢驗問題是雙側假設檢驗問題  對 的檢驗問題是單側假設檢驗問題  對 的檢驗問題也是單側假設檢驗問題  註:若假設是關於總體參數的某個命題
  • 假設檢驗學習筆記
    在實際工作和研究中,往往只能獲得數據的一部分,通常指這個數據為樣本,而通過樣本對整體的估計被稱為假設檢驗。假設檢驗分析思路為了得到用戶的年齡情況,參數估計,基於用戶樣本數據估計整體用戶年齡。假設檢驗思路根據經驗或者其他方面的信息假設一個總體用戶的年齡的可能值,在根據樣本情況,使用工具來驗證假設是否正確。
  • 假設檢驗與P-value簡介
    「什麼是假設檢驗?假設檢驗能幫我們做什麼事情?」一個優秀的色子被擲出的時候,必然是等概率的出現各個面的,即每個點都有1/6的可能性出現。假設檢驗可以幫到我們。01—假設檢驗假設檢驗說起來很簡單:我們針對隨機的事件,提出一個假設。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • 一文讀懂假設檢驗怎麼做
    假設檢驗定義假設檢驗是先對總體參數提出一個假設值,然後利用樣本信息判斷這一假設是否成立。假設檢驗的假設由定義可知,我們需要對結果進行假設,然後拿樣本數據去驗證這個假設。所以做假設檢驗時會設置兩個假設:一種叫原假設,也叫零假設,用H0表示。