統計學中p值的含義和顯著差異性分析

2021-01-17 計量經濟學服務中心

計量經濟學服務中心  ID: jingjixue100 

計量經濟學服務中心,專注於人文社科和經濟管理,關注論文指導、軟體操作、研究方法、建模分析、數據服務!關注知識,發現價值!


統計學意義(p值)

結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。


如何判定結果具有真實的顯著性

在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體數據集裡結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生p值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果0.05≥p>0.01被認為是具有統計學意義,而0.01≥p≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。


所有的檢驗統計都是正態分布的嗎?

並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、f檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變量的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分布前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變量分布並不呈正態。


 統計軟體的選擇
在進行統計分析時,作者常使用非專門的數理統計軟體Excel進行統計分析。由於Excel提供的統計分析功能十分有限,很難滿足實際需要。目前,國際上已開發出的專門用於統計分析的商業軟體很多,比較著名有SPSS(StatisticalPackage for Social Sciences)、SAS(StatisticalAnalysis System)、BMDP和STATISTICA、eviews、stata等。其中,SPSS是專門為社會科學領域的研究者設計的(但是,此軟體在自然科學領域也得到廣泛應用);BMDP是專門為生物學和醫學領域研究者編制的統計軟體。目前,國際學術界有一條不成文的約定:凡是用SPSS和SAS軟體進行統計分析所獲得的結果,在國際學術交流中不必說明具體算法。


均值的計算在處理實驗數據或採樣數據時,經常會遇到對相同採樣或相同實驗條件下同一隨機變量的多個不同取值進行統計處理的問題。此時,多數作者會不假思索地直接給出算術平均值和標準差。顯然,這種做法是不嚴謹的。在數理統計學中,作為描述隨機變量總體大小特徵的統計量有算術平均值、幾何平均值和中位數等。何時用算術平均值?何時用幾何平均值?以及何時用中位數?這不能由研究者根據主觀意願隨意確定,而要根據隨機變量的分布特徵確定。反映隨機變量總體大小特徵的統計量是數學期望,而在隨機變量的分布服從正態分布時,其總體的數學期望就是其算術平均值。此時,可用樣本的算術平均值描述隨機變量的大小特徵。如果所研究的隨機變量不服從正態分布,則算術平均值不能準確反映該變量的大小特徵。在這種情況下,可通過假設檢驗來判斷隨機變量是否服從對數正態分布。如果服從對數正態分布,則可用幾何平均值描述該隨機變量總體的大小。此時,就可以計算變量的幾何平均值。如果隨機變量既不服從正態分布也不服從對數正態分布,則按現有的數理統計學知識,尚無合適的統計量描述該變量的大小特徵。退而求其次,此時可用中位數來描述變量的大小特徵。

相關分析中相關係數的選擇
在相關分析中,作者們常犯的錯誤是簡單地計算Pearson積矩相關係數,而且既不給出正態分布檢驗結果,也往往不明確指出所計算的相關係數就是Pearson 積矩相關係數。常用的相關係數除有Pearson積矩相關係數外,還有Spearman秩相關係數和Kendall秩相關係數等。其中,Pearson 積矩相關係數可用於描述2個隨機變量的線性相關程度(相應的相關分析方法稱為「參數相關分析」,該方法的檢驗功效高,檢驗結果明確);Spearman或Kendall秩相關係數用來判斷兩個隨機變量在二維和多維空間中是否具有某種共變趨勢,而不考慮其變化的幅度(相應的相關分析稱為「非參數相關分析」 ,該方法的檢驗功效較參數方法稍差,檢驗結果也不如參數方法明確)。各種成熟的統計軟體如SPSS、SAS等均提供了這些相關係數的計算模塊。在相關分析中,計算各種相關係數是有前提的。對於二元相關分析,如果2個隨機變量服從二元正態分布,或2個隨機變量經數據變換後服從二元正態分布,則可以用Pearson積矩相關係數描述這2個隨機變量間的相關關係(此時描述的是線性相關關係),而不宜選用功效較低的Spearman或Kendall秩相關係數。如果樣本數據或其變換值不服從正態分布,則計算Pearson 積矩相關係數就毫無意義。退而求其次,此時只能計算Spearman或Kendall秩相關係數(儘管這樣做會導致檢驗功效的降低)。因此,在報告相關分析結果時,還應提供正態分布檢驗結果,以證明計算所選擇的相關係數是妥當的。需要指出的是,由於Spearman或Kendall秩相關係數是基於順序變量(秩)設計的相關係數,因此,如果所採集的數據不是確定的數值而僅僅是秩,則使用Spearman或Kendall秩相關係數進行非參數相關分析就成為唯一的選擇。


相關分析與回歸分析的區別
相關分析和回歸分析是極為常用的2種數理統計方法,在地質學研究領域有著廣泛的用途。然而,由於這2種數理統計方法在計算方面存在很多相似之處,且在一些數理統計教科書中沒有系統闡明這2種數理統計方法的內在差別,從而使一些研究者不能嚴格區分相關分析與回歸分析。最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,作者將「回歸直線(曲線)圖」稱為「相關性圖」或「相關關係圖」;將回歸直線的R2(擬合度,或稱「可決係數」)錯誤地稱為「相關係數」或「相關係數的平方」;根據回歸分析的結果宣稱2個變量之間存在正的或負的相關關係。這些情況在國內極為普遍。

 相關分析與回歸分析均為研究2個或多個隨機變量間關聯性的方法,但2種數理統計方法存在本質的差別,即它們用於不同的研究目的。相關分析的目的在於檢驗兩個隨機變量的共變趨勢(即共同變化的程度),回歸分析的目的則在於試圖用自變量來預測因變量的值。在相關分析中,兩個變量必須同時都是隨機變量,如果其中的一個變量不是隨機變量,就不能進行相關分析。這是相關分析方法本身所決定的。對於回歸分析,其中的因變量肯定為隨機變量(這是回歸分析方法本身所決定的),而自變量則可以是普通變量(規範的叫法是「固定變量」,有確定的取值)也可以是隨機變量。如果自變量是普通變量,採用的回歸方法就是最為常用的「最小二乘法」,即模型Ⅰ回歸分析;如果自變量是隨機變量,所採用的回歸方法與計算者的目的有關---在以預測為目的的情況下,仍採用「最小二乘法」,在以估值為目的的情況下須使用相對嚴謹的「主軸法」、「約化主軸法」或「Bartlett法」,即模型Ⅱ回歸分析。顯然,對於回歸分析,如果是模型Ⅰ回歸分析,就根本不可能回答變量的「相關性」問題,因為普通變量與隨機變量之間不存在「相關性」這一概念(問題在於,大多數的回歸分析都是模型Ⅰ回歸分析!)。此時,即使作者想描述2個變量間的「共變趨勢」而改用相關分析,也會因相關分析的前提不存在而使分析結果毫無意義。如果是模型Ⅱ回歸分析,鑑於兩個隨機變量客觀上存在「相關性」問題,但因回歸分析方法本身不能提供針對自變量和因變量之間相關關係的準確的檢驗手段,因此,若以預測為目的,最好不提「相關性」問題;若以探索兩者的「共變趨勢」為目的,建議作者改用相關分析。

需要特別指出的是,回歸分析中的R2在數學上恰好是Pearson積矩相關係數r的平方。因此,這極易使作者們錯誤地理解R2的含義,認為R2就是 「相關係數」或「相關係數的平方」。問題在於,對於自變量是普通變量(即其取值具有確定性)、因變量為隨機變量的模型Ⅰ回歸分析,2個變量之間的「相關性」概念根本不存在,又何談「相關係數」呢?(說明:二元回歸可決係數符號用小寫r2)


1、【原創·大秦學術·第二期】學術論文寫作方法——基於實證研究的視角

2、Stata : 論文中數據分析的一把利劍

4、盤點史上最牛的博士論文

5、中心已經正確的打開,等你來閱讀

計量經濟學服務中心

學術問題,一對一專家解決

打造中國最大的人文社科+經管類學術交流學習平臺

論文指導、軟體操作、學術技能、數據分析等,一起見證學術力量

見證學術力量

讓知識更有價值

讓學術更有價值

學術小組QQ群:219246913(500人大群)

打造中國最好的Eviews/SPSS/STATA/SAS/R諮詢群,做最好的學術交流群!


點擊圖片進一步了解中心

點擊左下角閱讀原文可以了解更多中心專題

相關焦點

  • 統計學中的P值,「差異具有顯著性」和「具有顯著差異」
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    普遍的問題 首先明確必須停止的事:我們不應該僅僅因為p值大於某個臨界值,比如0.05或者因為零在置信區間,而下結論說兩組之間『沒有差異』或者『沒有關聯』。也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。這些錯誤會浪費研究工作並誤導科學決策。
  • 統計學基礎遭質疑! p值、信賴區間為何被數百科學家連名反對?
    顯著性這一概念是支撐統計學發展的大廈。統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。
  • 差異基因分析方法——p-value
    我們都知道,在利用RNA-seq數據比較分析兩個樣品中同一個基因是否存在差異表達的時候,一般選取兩個標準:1)FoldChangeFoldChange,很容易理解了。就是兩樣品中同一個基因表達水平的變化倍數。
  • 【統計學】讓人糾結的P值
    關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 你真的懂p值嗎? 說人話的統計學
    ►所以,如果鋼蹦兒是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是我們所說的p值。換句話說,這種結果得玩兒32次才會出現1次。即使不做這樣的計算,藍精靈從日常生活的經驗中,也能感覺到,對於一塊均勻的鋼蹦來說,得到這樣的結果實在不太可能了。與其相信這樣的小概率事件真的發生了,我們覺得更合理的解釋是這塊鋼蹦兒根本就不是均勻的。多小的p值算是小?
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 乾貨|統計學的P值危機
    在文章發出來後不到24h就得到250多人籤名,一星期後,共收到800多份籤名,籤名者包括來自50多個國家的統計學家、臨床和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人籤名。他們提出:「我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出「沒有差異」或「沒有關聯」 ,或者等價,因為置信區間包括零。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    本文經授權轉載自公眾號: 新智元(ID:AI_era),作者:新智元統計學白學了?最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。
  • 當統計學遇上大數據——P值消亡
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.
  • 驚爆| p值不是什麼?【連載3】
    文章其後的【微點評】部分是我國醫學統計學專家、學者、專業人員和愛好者的一些認知。儘管對於隔岸頂級政治刊物的「禁p」我們或可不以為然、或可視而不見、或可「隔岸觀火」,但竊以為,當今的中國學界需要一種「非過敏性」的感知能力和對全球科技複雜變化發出「中國聲音」的反應能力。因為今天的不變不代表明天不會變。「道通天地有形外,思入風雲變態中。
  • 【p值之爭】史丹福大學陸教授有話說
    在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。
  • f檢驗的p值大於 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • f檢驗求p值 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • P值之死|當統計學遇上大數據
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。
  • 三陰性乳腺癌表達矩陣探索筆記之差異性分析
    color = "stage", palette = "jco",               add = "jitter")p+stat_compare_means() #p值和之前不一樣,因為換了一種統計學檢驗方法以第一個基因為例進行表達差異性分析.Rplot==Note== : 第一個基因是隨機挑選的
  • StatQuest生物統計學 - 線性擬合的R2和p值
    數據擬合後的效果由兩個參數來衡量:一個是R2,另一個是p值。R2是擬合所能解釋的數據波動的比例由於隨機誤差和變量效應的存在,對於任何任何測定數據相應變量Y,它的值都可以由變量效應X以及隨機誤差來表示:Y=X+Error或者Y=X1+X2+X3+...+Error。