在上一篇的文章中,我們討論了統計學習的關鍵概念——參數模型、訓練與測試、方差與偏差等等,今天我們再來看一看機器學習的基石概念之一假設檢驗。
著名的物理學家愛德華·特勒曾說:
「A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.」
事實是每個人都相信的簡單陳述。它是無辜的,除非被證偽。假設則是沒人願意相信的新穎建議。它是有錯的,除非被驗證有效。
假設檢驗的應用在數據科學中佔重要地位,對它的簡化和解構是非常必要的。就像犯罪小說的故事一樣,基於數據的假設檢驗,將把一個新穎的建議引向一個有效的命題。
概念
「假設」(hypothesis)一詞源自希臘詞語hupo(under)和thesis(placing),意思是基於有限的證據得出的想法。它是進一步調查分析的起點。
該概念非常簡單,但也非常強大。我們每天都在應用假設建議,它通常按照如下7個步驟進行:
1
做出假設
2
設定原位置
3
確定備擇位置
4
設置驗收標準
5
進行基於事實的測試
6
評估結果:評估是否支持原位置?確定結果不是偶然的?
7
達到以下結論之一:拒絕原位置以支持備擇位置,或者無法拒絕原位置
以一個故事來進一步解釋假設檢驗的概念。霍爾馬維克是冰島西部的一個小鎮,這個小鎮的獨特之處,是因其巫術博物館而聞名。即使現在,那裡也有人自稱是巫師。伊西爾德和甘道夫就是這樣的人。
他們聲稱擁有超感視覺,能夠透視任何物體。於是一些研究人員想要驗證他們的能力,讓他們玩一種叫做透視紙牌的遊戲。
該遊戲的規則如下:
向伊西爾德和甘道夫展示10張紙牌的背面,這張牌是從四副撲克牌中隨機選出的;
他們必須確認每張紙牌屬於哪副牌;
每個人進行10次重複測試。
已經經過測試的是,普通人能夠預測正確的平均次數在6次左右,這就是本次假設檢驗的基礎。而本次檢驗將基於統計確定伊西爾德和甘道夫是否是巫師。
1
做出假設
不同種類的假設檢驗需要不同的假設。而假設與數據的分布、採樣以及線性有關。一些常見的假設如下:
分布: 每種數據都會遵循特定的分布,需要掌握數據中的規律。許多自然發生的數據點如股票市場數據、人的體重和身高、在酒吧喝酒的人的薪水等等都近似正態分布。正態分布只是意味著很多觀測值都在中間位置,較少的觀察值大於或小於中間值。中間值也稱為中位數。
採樣:預設為檢驗採樣的數據是隨機選擇的,沒有偏見。
對於上述透視紙牌遊戲,以下假設是正確的:
在透視卡牌遊戲中,所選紙牌的分布將是正態分布的。這是真的,因為這些紙牌是隨機選擇的。隨機選擇紙牌意味著,被選出的10張紙牌中的每一張都具有相同的被選擇的概率。
在該問題中,紙牌沒有偏見。
2
零假設 NULL Hypothesis (Ho)
零假設是假設驗證的初始情況,也就是當下的狀態。其在整個假設驗證的過程中處於需要驗證和測試的位置,可能被拒絕,或者不能被拒絕。
對於上述紙牌遊戲來說,空假設如下:
伊西爾德/甘道夫並沒有超感視覺。
3
備擇假設 The Alternate Hypothesis (Ha)
備擇假設和零假設正好是相反的。如果統計學獲得的證據正好證明備擇假設是有效的,那麼零假設就是被拒絕的。
對於上述紙牌遊戲,備用假設如下:
伊西爾德/甘道夫具有超感視覺。
4
設置驗收準則 Acceptance Criteria
零假設和備擇假設定義好之後,初始位置為零假設。現在需要設定一個閾值,我們知道一個普通人,即不是巫師的人會在10次中預測正確6次。如果伊西爾德和甘道夫能夠在測試中預測超過6張正確的紙牌,那麼有更多的證據表明他們確實可能是巫師。有一種度量評估方法叫做t-統計(t-statistics),用於計算估計值與假設值的差距,t值越高則備擇假設的可能性就越高。
假設檢驗的結果也可能會錯。有四種可能的情況:
測試發現,伊西爾德和甘道夫具有超感視覺,他們是巫師;
測試發現,伊西爾德和甘道夫沒有超感視覺,他們不是巫師;
測試發現,伊西爾德和甘道夫具有超感視覺,他們不是巫師;
測試發現,伊西爾德和甘道夫沒有超感視覺,他們是巫師。
測試的結果可能顯示結論1和結論2是正確的,結論3和結論4是無效的。
如果結論3屬實,這樣會導致拒絕零假設,屬於假陽性(false positive),此類情況也稱為Ⅰ型錯誤;
如果結論3無效,這樣會接受零假設,屬於一種假陰性(false negative),此類情況稱為Ⅱ型錯誤。
和所有的統計檢驗一樣,假設驗證也必須面對不確定性,也就是概率。萬事無絕對。
對於概率來說,需要設定概率水平(probability level),以便確定發生I型錯誤的可能性,這個水平被稱為顯著性水平,使用α來代表。α越低意味著測試越嚴格,相對較高的α意味著測試不是那麼嚴格。α的值是根據假設檢驗的性質設定的,典型值為0.001、0.05或0.1。
如果所觀察到的結果僅僅是偶然的呢?如果只是一個巧合呢?如果他們在測試進行的那一天剛好走運了呢?這種不確定性需要得到度量,假設檢驗有一個衡量這種不確定性的指標,就是p值。
p值表示為概率。這意味著它的值在0和1之間。p值是在假設為真的情況下由於偶然性而觀測到t統計量的可能性(即被檢驗者是靠運氣預測正確的可能性)。
對於透視紙牌遊戲,決定如果伊西爾德可以正確猜測超過8張牌,那麼備擇假設是合理的。他可能確實是一位千裡眼。t統計量為8。
擁有超感視覺的人是沒有生命危險的。沒有人處於危險之中。顯著性水平設定為0.05。α是0.05。
5
進行測試
通過重複十次的測試和驗證,得到了一些結果。通過對數據的統計計算,最終得到如下的結果:
伊西爾德:
t-統計:8
P值:0.1
甘道夫:
t-統計:9
P值:0.01
6
評估結果
概率(p值)和顯著性水平之間的比較產生以下結果:
伊西爾德:
t統計值為8,這意味著,他平均正確預測了八張牌,顯著高於正常人的預測結果。
p值是0.1,這意味著觀察到的t統計數據歸因於偶然性的概率是10%。p值很高。
設定的顯著性水平(α)是0.05,轉化為5%。
p值高於設定的顯著性水平,即10%> 5%。
甘道夫:
t統計值為9,這意味著,他平均正確預測了9張牌,顯著高於正常人的預測結果。
p值是0.01,這意味著觀測到的t統計數據歸因於偶然性的概率只有1%。
設定的顯著性水平(α)是0.05,轉化為5%。
p值低於設定的顯著性水平,即1%>小於5%。
7
得出結論
測試已結束,指標是已知的。誰是真正的巫師呢?
對於伊西爾德:p值高於設定的顯著性水平(10%> 5%)。儘管平均而言,他已經正確預測了八張牌,但從統計上,結論如下:
伊西爾德的結論:
沒有實質證據反對零假設,;零假設未被拒絕。
對於甘道夫:平均而言,他正確預測了九張牌。p值低於設定的顯著性水平(1%
甘道夫的結論:
有很好的證據反對零假設,零假設被拒絕,備選假設被接受。
最終,伊西爾德震驚失望,而甘道夫得意洋洋。然而,伊西爾德也可以自我安慰,檢驗測試並沒有確定他不是具有超感視覺的巫師。零假設沒有被拒絕,並不意味著備擇假設就是錯誤的,這只能說明還沒有足夠的證據來確定零假設是無效的。在現實中,這樣的情況普遍存在。
結語
假設檢驗是機器學習的基礎概念之一,很多評估方法使用假設檢驗來評估模型的魯棒性。在本系列文章中,我們還將繼續深入解讀。