「湊巧」可以拒絕嗎?統計學的重要工具—假設檢驗

2021-01-11 騰訊網

▌假設檢驗 ---- 「湊巧」可以拒絕嗎?

【案例1】奶茶情緣

20世紀20年代初的一個午後, 三位科學家一邊曬在英格蘭午後的陽光一邊喝著下午茶。統計學家羅納德·費希爾(Ronald Fisher)倒了一杯奶茶端給了他的同事---穆麗爾·布裡斯託(Muriel Bristol)。但她婉拒了這杯奶茶,因為她說先倒牛奶後倒茶的味道更好。

Fisher不相信。於是另外一個科學家威廉姆·洛奇(William Roach)建議大家做一個試驗:背著Bristol倒一杯奶茶,然後讓她嘗,看看她能不能猜出倒奶和倒茶的順序。但是就算她說出正確答案,也不能說明什麼,因為至少也有的概率猜對。

這是個浪漫的故事。Bristol和Roach 因為這杯奶茶相識、相愛。當然除了這段姻緣,這杯奶茶還成就了Fisher的假設檢驗的理論。

Fisher 在其《試驗設計》一書中寫道,他試圖駁斥這樣的假設:Bristol的選擇是隨機的。這就是零假設。

Fisher設計了一種可以反駁零假設的方法。他準備 8 杯茶,4 杯先倒茶,4 杯先倒奶。打亂順序後讓Bristol每次品嘗一杯,然後說出奶和茶倒入的順序。

Bristol輕鬆過關,正確地辨認出 8 杯奶茶中奶和茶的倒入順序。因為Fisher的試驗設計的非常隨機,8 杯奶茶分成兩組的有種可能性。她全部猜中的可能性是

雖然這是個很小很小的概率,但依舊無法排除Bristol是「猜」出來的可能性。我們只能說,這種可能性非常小而已。

那究竟可有性為多少我們才可以拒絕「Bristol的選擇是隨機的」這樣的假設?

Fisher認為,基於零假設為真的前提,卻依舊觀測到這種結果的概率如果不到就可以拒絕零假設了。Bristol猜對的概率是,小於這個值,所以我們可以大膽地認為Bristol對奶茶有自己獨到犀利的味覺。

一杯奶茶,成就了一段浪漫的情緣,也成就了統計學的重要工具----假設檢驗。

【案例 2】咖啡新鮮嗎?

「咖啡(Coffee)「的名字最早來自衣索比亞的一個名叫卡法(kaffa)的小鎮,是「力量與熱情」的意思。它與茶葉、可可並稱為世界三大飲料植物,受到全世界人民的普遍喜愛。

人們理應更喜歡新鮮磨製的咖啡(fresh coffee),因為它的口感更純正、香濃,喝過之後唇齒留香。但在這個「速溶」的時代,速溶咖啡(instant coffee)也因其便攜、快速的優點成為很多人的首選。在中國,有報導聲稱「速溶咖啡和現磨咖啡在市場上各佔據半壁江山」。某品牌現磨咖啡機在進駐中國市場之前,為了對中國消費者的喜好有一個更清楚的認識,特意做了一個試驗來驗證。

有 100 個人參與這項試驗,每個人都需要嘗兩杯沒有任何標記的咖啡,然後告訴工作人員他們更喜歡哪杯。事實上,這兩杯咖啡一杯是速溶的,一杯是新鮮磨製的。

這個試驗的統計量是樣本中更喜歡新鮮咖啡的比例。這個符號上的帽尖(Hat)代表這只是個從樣本中算出的估計值,並不是總體中的真實值。結果顯示,100 人中有 72 人選擇了新鮮咖啡,也就是

這個試驗能夠提供多少有力證據來反駁報紙上的觀點呢?要想回答這個問題,就需要用到統計上的假設檢驗。

【知識點1】顯著性水平

零假設究竟有多不合理才可以將其推翻?可以推翻零假設的門檻通常是,用希臘字母 表示,意思是可以推翻一個成立的概率不足的零假設。這就是的顯著性水平。當然,這個門檻還可以設為和。顯然的顯著性水平比的水平拒絕起來的難度更大,代表的統計學分量也更重。

這裡必須強調的是,這個顯著性水平是事先給定的。如果等數據出來再決定是用0.01,0.05還是0.1,就容易犯機會主義傾向的錯誤。

案例1中Fisher給出的顯著性水平是,基於零假設為真的前提,如果依舊觀測到這種結果的概率如果不到,那麼就可以拒絕零假設,即拒絕Bristol是瞎猜猜對倒奶的順序。

【知識點2】

值是零假設為真時,得到樣本所觀測到的結果或者更極端結果出現的概率。值越小,由樣本數據所提供的拒絕零假設的證據就越強。

案例1中通過排列組合和試驗設計的原理,計算出的值是0.014。這裡需要用到正態分布的理論,後面會詳細解釋。

究竟值多少才可以拒絕零假設呢?對於這個問題,沒有個一個一成不變的標準,要看拒絕零假設的成本有多高。如果這個成本很昂貴,就需要很強的證據支持才能夠拒絕。

【知識點3】統計顯著

當由樣本中計算出來的值小於事先設定的顯著性水平時,就可以說樣本數據在的顯著性水平下是統計顯著的。

這裡必須強調的是,這個顯著性水平一定是預先設定的。為什麼呢?比如,得到數據後計算出值是,再反過頭來規定顯著性水平是,我們就可以理所應當地拒絕零假設。但如果我們事先規定顯著性水平是,那麼就不可以拒絕。如果顯著性水平是取得數據後再給定的,就能根據結果調整得到我們想要的結論,那麼就存在一定投機的可能性。

案例1中Fisher計算出的值是,小於預先設定的的顯著性水平,說明統計顯著的結論,即根據樣本得出的結論可以拒絕零假設,進而認為Bristol真的能夠分辨出先倒奶還是先倒茶在味道上的區別。

【知識點4】統計顯著對比實際顯著

「統計顯著」是很多學術報告和商業報告中都會給出的結論,代表了從統計學的角度對事物的觀點。但事實上,存在一個誤區,即認為統計顯著的結果總是在總體中具有重大的實際意義。這是對統計這門學科「迷信」的一種表現。

當樣本很大時,許多效應即使差異不大,也會產生統計顯著的效果。得到統計顯著的結論其實不是一個終點,恰恰這是一個起點,它可以用來引發人們的思考,進而做深入的研究,即探尋事物的來龍去脈後再下定論,確定在實際中有沒有顯著效應。

【知識點5】假設檢驗 對比置信區間

假設檢驗是一種科學研究的重要手段,是人們更好探尋世間規律的方法。從某種程度上來說,假設檢驗不如置信區間提供的信息量大。在假設檢驗中,關注的焦點是某個參數的一個值,例如,在案例2中所關注的是人們偏愛新鮮咖啡的比例是不是。如果根據假設檢驗的結果拒絕了這個零假設,之後我們就不清楚它具體的值是多少了。

很多統計學者更偏愛置信區間。因為置信區間能夠提供一個估計範圍,而他們希望這個區間能夠包含這個總體真實值。

【知識點6】單側檢驗 對比雙側檢驗

案例2的樣本中偏愛新鮮咖啡的比例是,有兩種方法可以檢驗報導上的結論:總體中人們偏愛新鮮咖啡的比例究竟是不是?確切地說,有兩種備擇假設。

第一種:

第二種:

是總體中所有喝咖啡的人當中偏好新鮮磨製咖啡的比例。第一種備擇假設是,總體中偏好新鮮咖啡的人不等於,這個比例可能更高也可能更低。第二種備擇假設是,偏愛新鮮咖啡的人的比例高於。選擇第一種備擇假設,我們就選擇了雙側檢驗;選擇了第二種,就選擇了單側檢驗。

在零假設為真的情況下,近似服從正態分布,它的均值和標準差分別為

均值

標準差

不管做哪種選擇,首先要把樣本比例轉化成標準正態的z值:

現在的統計軟體很發達,任何軟體都可以求出值。在第一種備擇假設下,也就是在雙側檢驗的情況下,我們基於z值求出的值是。而在單側檢驗下的值為。在事先設定的顯著性水平下,這兩種檢驗的原假設都會被拒絕。

根據理論或常識無法對估計係數的影響方向做出肯定的判斷,即有可能為正也有可能為負,故作雙側檢驗。而單側檢驗則相反,能夠依據常識或理論對估計係數的影響方向做明確的斷定,既要麼為正要麼為負。案例2中如果那個準備進入市場的某品牌現磨咖啡機項目調查人員認為人們理應更喜歡新鮮磨製的咖啡,那麼他們就需要直奔單側檢驗,這樣得到的結論更直接、有效。

理解假設檢驗就需要理解假設檢驗所隱含的如下兩個思維。

1)反證法思維

案例1中,假設零假設為真,即Bristol完全是瞎猜的前提條件下,那麼,「她全部猜對8杯奶茶的倒茶和倒奶的順序」就是一個非常規的事件,在大多數情況下不會發生,而現在竟然發生了,那麼就可以認為她是真的可以品嘗出倒奶還是先倒茶的區別。

案例2中,如果「人們對咖啡沒有偏好」的零假設為真,則樣本中有的人偏愛新鮮磨製咖啡就是一個本不應該發生卻發生了的非常規事件,因此就可以拒絕零假設。

2)小概率思維

上述所提到的非常規的事件,並不是邏輯學中的絕對不可能發生的事件,而是指統計學上指的小概率事件。小概率事件在一個樣本中往往是不太可能發生的。

案例1、案例2中樣本所觀測到的事件,在基於它們各自零假設為真的前提下,都是小概率事件,所以間接否定了它們的零假設。(本節完)

上文節選自電子工業出版社《大數據時代下的統計學》(第二版), [遇見] 已獲授權, 特此感謝!

相關焦點

  • 「湊巧」可以拒絕嗎?統計學裡的最重要工具之一:假設檢驗
    假設檢驗 ---- 「湊巧」可以拒絕嗎?【案例1】奶茶情緣20世紀20年代初的一個午後, 三位科學家一邊曬在英格蘭午後的陽光一邊喝著下午茶。一杯奶茶,成就了一段浪漫的情緣,也成就了統計學的重要工具----假設檢驗。【案例 2】咖啡新鮮嗎?「咖啡(Coffee)「的名字最早來自衣索比亞的一個名叫卡法(kaffa)的小鎮,是「力量與熱情」的意思。
  • 假設檢驗:使用p值來接受或拒絕你的假設
    介紹檢驗是統計學中最基本的概念之一。不僅在數據科學中,假設檢驗在各個領域都很重要。想知道怎麼做?讓我們舉個例子。現在有一個lifebuoy沐浴露。沐浴露廠商聲稱,它殺死99.9%的細菌。他們怎麼能這麼說呢?必須有一種測試技術來證明這種說法是正確的。所以假設檢驗用來證明一個主張或任何假設。
  • 數據分析必備統計學(二):假設檢驗
    講完概率分布,再來講講統計學的最後一個知識點——假設檢驗。假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。事先對總體參數或分布形式作出某種假設,然後利用樣本信息來判斷原假設是否成立,採用邏輯上的反證法,依據統計上的小概率原理。為了更好的解釋,這裡舉個例子。
  • 統計學裡的假設檢驗是什麼?
    hello,小夥伴們,時隔幾個月 《統計從未如此性感》又和大家見面了 要問統計學有多重要?收穫本期看點 看完視頻,是不是還意猶未盡 不妨讓我們一起進入總結時間吧 什麼是假設檢驗 簡單來說,假設檢驗就是在不確定的情況下作出某種假設
  • 統計學中的假設檢驗
    假設檢驗的特點就是採用邏輯上的反證法和依據統計上 的小概率原理。小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。在假設檢驗中,我們做出判斷時所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬於小概率事件,那麼可以認為原假設不可信,從而否定它,轉而接受備擇假設。
  • 假設檢驗、Z檢驗與T檢驗
    概述假設檢驗是統計學、分析學和數據科學中的一個關鍵概念了解假設檢驗的工作原理、Z檢驗和t檢驗之間的區別以及其他統計概念介紹冠狀病毒大流行使我們大家都成了一個統計學家。我們不斷地核對數字,對大流行將如何發展做出自己的假設,並對何時出現「高峰」提出假設。
  • 讓你成為統計大師的假設檢驗指南
    沒有統計學背景的經理可能看到這份報告可能會直接交給高級管理人員,查閱後進行封存,而有統計學背景的經理則可能會告知在沒有一個解釋的情況下不要隨便的得出結論。所以在今天的文章中,將解釋假設檢驗和讀取統計意義,以區分數據中的信號和噪音–而這也是擁有統計學背景的經理想要明白的!
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很 少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的(用統計學的話講,就是能夠拒絕虛無假設null hypothesis,Ho)。相反,若比較後發現,出現的機率很高,並不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確定。
  • excel假設檢驗 - CSDN
    置信概率可以用來評估區間估計的什麼性能?當然是可靠性了,P值反映的是顯著性。有了參數估計,就會有對應的假設檢驗;知識結構如下:
  • 統計:如何用Excel完成雙樣本假設檢驗
    這種檢驗可以確認不同供應商的績效、不同地點的工廠績效、新舊兩種不同工作方法的差別,或者不同獎勵和嘉獎機制之間的區別。和單樣本檢驗類似,計算母體參數的區間的雙樣本檢驗,有下列幾種形式。假設檢驗的程序,與我們剛剛討論過的計算檢驗統計量和對比臨界值的程序相類似。不過雙樣本檢驗的檢驗統計量比單樣本檢驗更為複雜,我們不能陷入那些數學細節之中。
  • 假設檢驗到底是什麼?(學員必看)
    這個時候,你可以選擇一個學校的7歲男童,來測量身高。這就涉及兩個概念。一個是總體,一個是樣本。我們在描述一個學校7歲男童的身高的時候,會運用平均數、中位數等,這就是統計描述。但是,我們最終目的是想要知道這個地區7歲男童的身高,就需要用樣本推斷總體,這就是統計推斷。這也就是我們說的統計的兩大基本功能。
  • 假設檢驗的區別 - CSDN
    進行假設檢驗的步驟進行假設檢驗有四個步驟:設定假設設定決策的重要程度和標準計算測試統計做決策步驟1到步驟3是非常不言而喻的,但是我們可以根據什麼在步驟4中做出決定?這個p值表示什麼?我們可以把這個p值理解為衡量辯護律師論點的標準。如果p值小於⍺,則拒絕零假設;如果p值大於⍺,則不拒絕零假設。
  • 第五節 假設檢驗中的兩類錯誤及注意事項
    第五節 假設檢驗中的兩類錯誤及注意事項   一、第一類錯誤與第二類錯誤   假設檢驗時,根據檢驗結果作出的判斷,即拒絕H0或不拒絕H0,並不是百分之百的正確,可能發生兩種錯誤。下面以樣本均數與總體均數比較的t檢驗為例說明。
  • 等級變量的假設檢驗怎麼做?
    作者:丁點helper 來源:丁點幫你今天,我們講等級變量的假設檢驗。首先,回顧一下,什麼叫等級變量,也稱有序變量。上表中的「臨床分度」就是一個等級變量,本例想要比較的就是兩個地區(拉薩和山南)大骨節病患者的臨床分度是否有差異,屬於兩獨立兩本的非參數檢驗。上表同時給出了秩和檢驗求秩和的具體步驟,感興趣的同學可以對照表格每列前面的序號了解一下。
  • Python實現常用的假設檢驗 !
    假設檢驗用到的Python工具包Statsmodels是Python中,用於實現統計建模和計量經濟學的工具包,主要包括描述統計、統計模型估計和統計推斷Scipy, pval = statsmodels.stats.weightstats.ztest(iris['petal_legth'], value=4.2)print(z,pval)'''P=0.002 <5%, 拒絕原假設,接受備則假設。'''
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 統計學真的有那麼可怕嗎?這兒有可以手算的效能分析
    圖源:unsplash事實上,統計學確實可以算得上是令人畏懼的學科了。但統計學不一定有那麼難學,本文就試圖向大家展示掌握統計學工具,它能讓統計學變得不再那麼可怕。那麼先從計算A/B測試的樣本量(效能檢驗)開始吧。閱讀本文前,最好閱讀先熟悉抽樣分布的概念以及比例的標準誤差的計算方法。1.設計A/B測試假設我們要用A/B測試來決定是否採用主頁的新設計。當前主頁平均每天有200個獨立訪客以及5%的點擊率 (CTR) 。預計新主頁能帶來至少7%的點擊率。
  • 數據分析科普系列:2—祭出大招(假設檢驗)
    咳咳,各位搬好小板凳,宗介數據分析專題正式開講了,雖本次為系列第二節課,但是你的焦慮我懂得,所以不再扯淡,直接上乾貨,本次乾貨就是經典統計學大招:假設檢驗。由於涉及一些專業名詞,宗介儘量用通俗去和大家一起探討數據分析應用。
  • T檢驗與F檢驗,你分清楚嗎?
    倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的 (用統計學的話講,就是能夠拒絕虛無假設 null hypothesis,Ho)。相反,若比較後發現,出現的機率很高,並不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確定。
  • 機器學習從入門到進階丨假設檢驗
    假設則是沒人願意相信的新穎建議。它是有錯的,除非被驗證有效。 假設檢驗的應用在數據科學中佔重要地位,對它的簡化和解構是非常必要的。就像犯罪小說的故事一樣,基於數據的假設檢驗,將把一個新穎的建議引向一個有效的命題。