顯著性水平怎麼算 - CSDN

2020-11-23 CSDN技術社區

作者:薛定餓了麼
連結:https://www.zhihu.com/question/30272097/answer/472809487
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
 

Question:1.什麼是顯著性檢驗? 2.為什麼要做顯著性檢驗? 3.怎麼做顯著性檢驗?(閱讀本回答預計用時9分鐘)

後文將對該三個問題作出解釋,最後推薦一個CrashCourse統計學掃盲課程

一.什麼是顯著性檢驗?

在統計學中,顯著性檢驗是「統計假設檢驗」(Statistical hypothesis testing)的一種,顯著性檢驗是用於檢測科學實驗中實驗組與對照組之間是否有差異以及差異是否顯著的辦法。「統計假設檢驗」這一正名實際上指出了「顯著性檢驗」的前提條件是「統計假設」,換言之「無假設,不檢驗」。在使用顯著性檢驗之前必須在心裡明白自己的統計假設(無效假設,也稱為零假設)是什麼,否則顯著性檢驗就是「水中月,鏡中花」。

一般來說顯著性檢驗會先對科研數據做一個無效假設,然後用檢驗來檢查作出的假設是否正確。

無效假設:數據結果之間本身不存在顯著性差異。(差異:我不是,我沒有,你看錯了)

若原假設為真,而檢驗的結論卻勸你放棄原假設。此時,我們把這種錯誤稱之為第一類錯誤。通常把第一類錯誤出現的概率記為α

若原假設不真,而檢驗的結論卻勸你採納原假設。此時,我們把這種錯誤稱之為第二類錯誤。通常把第二類錯誤出現的概率記為β

通常只限定犯第一類錯誤的最大概率α, 不考慮犯第二類錯誤的概率β。我們把這樣的假設檢驗稱為顯著性檢驗概率α稱為顯著性水平。顯著性水平是數學界約定俗成的,一般有α =0.05,0.01的情況。代表著顯著性檢驗的結論錯誤率必須低於5%或1%

在目前的統計學中,通常將(閾yǜ值)發生機率小於5%的事件稱之為「不可能事件」,在不同的領域內該閾值(P)有其特定的統計意義和不同的取值

(以上解釋了顯著性檢驗與統計假設檢驗的關係)

統計假設檢驗是什麼?
所謂統計假設檢驗就是事先對總體(隨機變量)的參數總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設是否合理。而把只限定第一類錯誤概率的統計假設檢驗就稱之為顯著性檢驗。在上例中,我們的假設就是一種顯著性檢驗。因為方差檢驗不適用於估計參數和估計總體分布,而適用於檢驗試驗的兩個組間是否有差異。而方差檢驗正是用於檢測我們所關心的是這兩個集合(兩個分布)的均值是否存在差異。

二.為什麼要做顯著性檢驗?

為了方便接下來的解釋,這裡假設一個問題場景。

王先森開了一家公司,該公司分別在北京和杭州開設了分公司。現在存在下列數據作為兩個分公司的銷售額,樣本集合中的每一個數代表著一年中各個月的公司銷售額。

(一共12個月的數據,強迫症不用數了)

北京分公司B = {23,25,26,27,23,24,22,23,25,29,30,32}

杭州分公司H = {24,25,23,26,27,25,25,28,30,31,29,28}

王先森想要知道兩個公司的銷售額是否有存在明顯的差異(即是否存在北京分公司銷售額>杭州分公司銷售額,抑或反之)以便對接下來公司的戰略業務調整做出規劃。下屬們知道王老闆的難處,紛紛建議「只需要求平均值就知道哪個分公司的銷售額更大了」。但是作為擁有高學歷的王先森知道「我們生活在概率的世界之中」。那也就意味著,平均值並不能夠說明什麼問題,即便杭州分公司的銷售額平均值大於北京分公司的銷售額平均值仍然不能說明杭州分公司的銷售額一定就大於北京分公司的銷售額,因為「這樣一種看似存在的大於關係實質上是偶然造成的而並不是一種必然」。

(有數學直覺的人都知道平均數並不像以前小學老師講的那樣能簡單粗暴解決這個大問題)


三.怎麼做顯著性檢驗?

王先森根據零假設的定義,作出「兩個分公司的銷售額沒有顯著差異」的假設,最後王先森計算得出,方差檢驗的p 值= 0.459,那也就意味著,雖然杭州分公司的年平均銷售額26.75大於北京分公司的銷售額25.75,但是實質上,兩個分公司的銷售額並沒有明顯的差異

銷售額統計
分公司 個案數 平均值 標準差 標準誤差平均值
1 12 25.75 3.166 .914
2 12 26.75 2.491 .719

(相信此時的你心中有萬千草泥馬奔過:p值是什麼東西?為什麼p=0.459意味著銷售額沒有明顯差異?方差檢驗是怎麼做到的?不要急,不要慌,我們一手一個慢動作)

  • 「無假設,不檢驗」,王先森做了什麼樣的假設(Hypothesis)?

由於王先森想要知道兩個公司的銷售額是否有存在明顯的差異 ,所以他的無效假設就是「樣本集B(北京分公司)和樣本集H(杭州分公司)不存在顯著性差異,換言之這兩個集合沒有任何區別(銷售額間沒有區別)!」。那麼問題來了,為什麼王先森要假設這兩個樣本集之間不存在任何區別,而不是假設這兩個樣本集存在區別。因為這個假設(Hypothesis)正是方差檢驗的原假設(null hypothesis)。問題又來了,什麼是原假設。所謂原假設是數學界為了方便討論而默認的「原始的假設」。沒有什麼reason可言,這是約定好的。

無效假設:是對研究總體提出一個假想目標,所謂「無效」是指處理效應與假設值之間沒有真實差異,試驗結果所得的差異乃誤差所致。國內多譯作假設

具體求解該過程需要利用到方差分析的方法。

方差分析(Analysis of Variance,簡稱ANOVA),又稱「變異數分析」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。

其中方差分析的結果中將給出p值,p值是衡量控制組與實驗組差異大小的指標。

在顯著性水平α =0.05的情況下,p>0.05接受原假設,p值<0.05拒絕原假設。我們的原假設是樣本集B和樣本集H間不存在顯著性差異,但是由於p=0.459>0.05,所以接受原假設,即樣本集B和樣本集H間不存在顯著性差異。如果這裡的p值小於0.05,那麼就要拒絕原假設,即集合B和集合H間存在顯著性差異。

對於p的另一種角度:這個情境下的p=0.459,意思就是說偶然因素導致數據發生這種差異的概率是0.459,跟0.05一比大好多。那麼就是說偶然因素很有可能導致了這種差異,所以數據本身之間是不存在差異的。【引申到比如p=0.02<0.05,偶然因素導致差異的概率是0.02,不太可能是偶然因素使得壞,所以得出結論是數據本身之間存在差異】

在這個問題下可以根據顯著性水平α和0.05的關係由法則"大同小異"得出是否存在顯著差異。

"大同":顯著性水平α>0.05,王先森的兩家分公司銷售額大致相同,不存在顯著性差異。

"小異":顯著性水平α<0.05,王先森的兩家分公司銷售額不相同,存在顯著性差異。

  • 方差檢驗具體做法似乎超出題主的問題了,這裡只以通俗語言理解顯著性檢驗,大家要是有必要的話我再修改。
  • 想要進一步理解假設檢驗,可以參考Crash Course的統計學課程↓

https://www.bilibili.com/video/av20624185?p=22​www.bilibili.com

相關焦點

  • python 顯著性水平專題及常見問題 - CSDN
    幾百年來這座塔慢慢靠向一邊,最終達到5.5度的傾斜角度,在頂端水平偏離了近3米。年度數據pisa.csv文件記錄了從1975年到1987年測量塔的傾斜,其中lean代表了偏離的角度。在這個任務,我們將嘗試使用線性回歸來估計傾斜率以及解釋其係數和統計數據。
  • 顯著性水平a,多大才合適?
    在假設檢驗中,顯著性水平(Significant level,用α表示)的確定是至關重要的問題。顯著性水平a,是在原假設成立時,檢驗統計量值落在某個極端區域的概率值。因此,若取α= 0.05,如果計算出的p值小於α ,則可認為原假設是一個不可能發生的小概率事件。
  • 回歸方程的顯著性檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係 二、回歸方程的顯著性檢驗  目的:檢驗 (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。
  • 檢驗回歸係數的顯著性excel_excel相關係數顯著性檢驗 - CSDN
    4、  第二張表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F統計量,Significance F是回歸方程總體的顯著性檢驗,其中我們主要關注F檢驗的結果,即Significance F值,F檢驗主要是檢驗因變量與自變量之間的線性關係是否顯著,用線性模型來描述他們之間的關係是否恰當
  • 回歸係數顯著性t檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係 二、回歸方程的顯著性檢驗  目的:檢驗 (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。
  • 顯著性檢驗的計算 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:R筆記:兩配對樣本的顯著性檢驗。跟兩獨立樣本相對應的是兩配對樣本,生物醫學中常見的案例是治療前後的比較,兩種檢測方法的比較(同一樣本接受不同的檢驗方法)、配對的對象接受不同的處理。
  • 回歸係數顯著性水平多少範圍_多元線性回歸方程及回歸係數的顯著性...
    為準確預測元寶山露天煤礦湧水量,...而多元非線性回歸分析法的湧水量預測值與實測值相關係數達0.946,顯著性水平檢驗R~2為0.894,能解釋湧水量89.4%的變異,預測更精確,可作為今後礦區湧水量預測的依據
  • 相關性顯著水平_r語言 兩個相關係數在0.05顯著性水平上顯著不同於...
    為加強對進口高氟煤炭的管理,評價進口煤炭中...進口加拿大煤中氟含量與灰分、全硫含量相關性不顯著,與磷含量的相關性係數為0.763,顯著性水平為0.01
  • 一元線性回歸顯著性檢驗專題及常見問題 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係 二、回歸方程的顯著性檢驗  目的:檢驗 (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    - 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • t值判斷顯著性專題及常見問題 - CSDN
    「 ggplot2中的顯著性標記」生活科學哥-R語言科學 2020-08-01  5:36最近由於工作的原因,有一段時間沒更新了,今天是周末,早上就是沒睡著,起來寫點東西,今天來講一講顯著性的標記。比如我們在對比兩組或者是多組數據時,對於兩組而言,會做Two Sample T Test,然後給出一個p值,判斷兩者差異的顯著性。在ggplot2中,兩組數據對比時,我們常用的,就是boxplot,那麼,如何在作出兩組或者多組的boxplot的同時,標記出顯著性的數據呢?別急,這可以直接採用一個叫ggsignif的包。
  • 線性回歸方程的顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗
    【顯著性驗證百科定義】顯著性驗證,是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。顯著性驗證的方法一般有兩種,一是測算回歸方程總體顯著性的F檢驗,二是測算變量解釋係數(即回歸係數)個體顯著性的t檢驗。
  • 顯著性檢驗與作用大小
    這並不是他們在水平上有不足。科學發現的邏輯是證偽,但人們在日常生活中卻希望證明。因此,通過否定零假設(null hypothesis)來支持研究假設,學生們很容易認為是證明了研究假設。不僅學生有誤解,學者們在日復一日的研究中,有時候也忘記了這點。Cohen, Jacob. 1994. 「The Earth is Round (p<.05).」
  • 從統計顯著性到顯著性統計
    2017 年 70 多位學者聯名在雜誌《自然人類行為》上發表文章《重新定義統計顯著性》[1], 2019 年又有 800 多個署名的文章《停用統計顯著性》[2] 在《自然》雜誌上發表,這些都證實了如上的說法。對此,統計學界就身陷囹圄的 p 值做出了有組織的響應。
  • 統計學中的P值與顯著性的意義
    2) 拒絕原假設的最小顯著性水平。  3) 觀察到的(實例的) 顯著性水平。  4) 表示對原假設的支持程度,是用於確定是否應該拒絕原假設的另一種方法。  二、統計學意義結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • 常見的A/B測試誤區分析:重複檢驗顯著性
    這個問題的答案就是顯著性水平,「統計顯著的結果」意味著顯著性水平數值比較小,5%或1%。數據面板一般會取補集(95%或99%),作為「優於原版本的概率」或類似的東西來報告。然而,顯著性水平的計算有嚴格的假設:樣本數量的多少是事先指定的。你很可能違反了該假設而不自知。
  • 自回歸分析法 - CSDN
    最小二乘法求出直線的斜率a和斜率b有了這個公式,對於廣告費和銷售額的那個例子,我們就可以算出那條擬合直線具體是什麼,分別求出公式中的各種平均數,然後帶入即可,最後算出a=1.98,b=2.25(因為我們的統計量就是根據已知的樣本算出來的,這些已知樣本就是一次實驗)肯定是最開始的假設有問題,所以就可以拒絕最開始的假設,如果概率不低,那就說明假設沒問題。
  • excel做回歸分析 - CSDN
    變量的顯著性檢驗變量的顯著性檢驗的目的:剔除回歸係數中不顯著的解釋變量(也就是X),使得模型更簡潔。在一元線性模型中,我們只有有一個自變量X,就是要判斷X對Y是否有顯著性的影響;多元線性回歸中,驗證每個Xi自身是否真的對Y有顯著的影響,不顯著的就應該從模型去掉。變量的顯著性檢驗的思想:用的是純數理統計中的假設檢驗的思想。
  • f檢驗 matlab專題及常見問題 - CSDN
    Mann-Kendall顯著性檢驗工具:1、MATLAB2、DPS3、示例數據(數據採用的是魏鳳英老師《現代氣候統計診斷預測技術》中的1900-1990年上海市的年平均氣溫數據)Mann-Kendall原理可詳細參考https://wenku.baidu.com
  • 【方法】相關係數的計算與顯著性檢驗
    相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。但是,很多研究者忽略了一個問題——當相關變量存在缺失時,SPSS默認會採用配對刪除法對無效個案進行剔除,結果就導致了相關矩陣中每一個相關係數所基於的樣本量可能是不同的。