計量經濟學服務中心 ID: jingjixue100
計量經濟學服務中心,專注於人文社科和經濟管理,關注論文指導、軟體操作、研究方法、建模分析、數據服務!關注知識,發現價值!
統計學意義(p值)
結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。
如何判定結果具有真實的顯著性
在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體數據集裡結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生p值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果0.05≥p>0.01被認為是具有統計學意義,而0.01≥p≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。
所有的檢驗統計都是正態分布的嗎?
並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、f檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變量的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分布前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變量分布並不呈正態。
統計軟體的選擇
在進行統計分析時,作者常使用非專門的數理統計軟體Excel進行統計分析。由於Excel提供的統計分析功能十分有限,很難滿足實際需要。目前,國際上已開發出的專門用於統計分析的商業軟體很多,比較著名有SPSS(StatisticalPackage for Social Sciences)、SAS(StatisticalAnalysis System)、BMDP和STATISTICA、eviews、stata等。其中,SPSS是專門為社會科學領域的研究者設計的(但是,此軟體在自然科學領域也得到廣泛應用);BMDP是專門為生物學和醫學領域研究者編制的統計軟體。目前,國際學術界有一條不成文的約定:凡是用SPSS和SAS軟體進行統計分析所獲得的結果,在國際學術交流中不必說明具體算法。
均值的計算在處理實驗數據或採樣數據時,經常會遇到對相同採樣或相同實驗條件下同一隨機變量的多個不同取值進行統計處理的問題。此時,多數作者會不假思索地直接給出算術平均值和標準差。顯然,這種做法是不嚴謹的。在數理統計學中,作為描述隨機變量總體大小特徵的統計量有算術平均值、幾何平均值和中位數等。何時用算術平均值?何時用幾何平均值?以及何時用中位數?這不能由研究者根據主觀意願隨意確定,而要根據隨機變量的分布特徵確定。反映隨機變量總體大小特徵的統計量是數學期望,而在隨機變量的分布服從正態分布時,其總體的數學期望就是其算術平均值。此時,可用樣本的算術平均值描述隨機變量的大小特徵。如果所研究的隨機變量不服從正態分布,則算術平均值不能準確反映該變量的大小特徵。在這種情況下,可通過假設檢驗來判斷隨機變量是否服從對數正態分布。如果服從對數正態分布,則可用幾何平均值描述該隨機變量總體的大小。此時,就可以計算變量的幾何平均值。如果隨機變量既不服從正態分布也不服從對數正態分布,則按現有的數理統計學知識,尚無合適的統計量描述該變量的大小特徵。退而求其次,此時可用中位數來描述變量的大小特徵。
相關分析中相關係數的選擇
在相關分析中,作者們常犯的錯誤是簡單地計算Pearson積矩相關係數,而且既不給出正態分布檢驗結果,也往往不明確指出所計算的相關係數就是Pearson 積矩相關係數。常用的相關係數除有Pearson積矩相關係數外,還有Spearman秩相關係數和Kendall秩相關係數等。其中,Pearson 積矩相關係數可用於描述2個隨機變量的線性相關程度(相應的相關分析方法稱為「參數相關分析」,該方法的檢驗功效高,檢驗結果明確);Spearman或Kendall秩相關係數用來判斷兩個隨機變量在二維和多維空間中是否具有某種共變趨勢,而不考慮其變化的幅度(相應的相關分析稱為「非參數相關分析」 ,該方法的檢驗功效較參數方法稍差,檢驗結果也不如參數方法明確)。各種成熟的統計軟體如SPSS、SAS等均提供了這些相關係數的計算模塊。在相關分析中,計算各種相關係數是有前提的。對於二元相關分析,如果2個隨機變量服從二元正態分布,或2個隨機變量經數據變換後服從二元正態分布,則可以用Pearson積矩相關係數描述這2個隨機變量間的相關關係(此時描述的是線性相關關係),而不宜選用功效較低的Spearman或Kendall秩相關係數。如果樣本數據或其變換值不服從正態分布,則計算Pearson 積矩相關係數就毫無意義。退而求其次,此時只能計算Spearman或Kendall秩相關係數(儘管這樣做會導致檢驗功效的降低)。因此,在報告相關分析結果時,還應提供正態分布檢驗結果,以證明計算所選擇的相關係數是妥當的。需要指出的是,由於Spearman或Kendall秩相關係數是基於順序變量(秩)設計的相關係數,因此,如果所採集的數據不是確定的數值而僅僅是秩,則使用Spearman或Kendall秩相關係數進行非參數相關分析就成為唯一的選擇。
相關分析與回歸分析的區別
相關分析和回歸分析是極為常用的2種數理統計方法,在地質學研究領域有著廣泛的用途。然而,由於這2種數理統計方法在計算方面存在很多相似之處,且在一些數理統計教科書中沒有系統闡明這2種數理統計方法的內在差別,從而使一些研究者不能嚴格區分相關分析與回歸分析。最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,作者將「回歸直線(曲線)圖」稱為「相關性圖」或「相關關係圖」;將回歸直線的R2(擬合度,或稱「可決係數」)錯誤地稱為「相關係數」或「相關係數的平方」;根據回歸分析的結果宣稱2個變量之間存在正的或負的相關關係。這些情況在國內極為普遍。
相關分析與回歸分析均為研究2個或多個隨機變量間關聯性的方法,但2種數理統計方法存在本質的差別,即它們用於不同的研究目的。相關分析的目的在於檢驗兩個隨機變量的共變趨勢(即共同變化的程度),回歸分析的目的則在於試圖用自變量來預測因變量的值。在相關分析中,兩個變量必須同時都是隨機變量,如果其中的一個變量不是隨機變量,就不能進行相關分析。這是相關分析方法本身所決定的。對於回歸分析,其中的因變量肯定為隨機變量(這是回歸分析方法本身所決定的),而自變量則可以是普通變量(規範的叫法是「固定變量」,有確定的取值)也可以是隨機變量。如果自變量是普通變量,採用的回歸方法就是最為常用的「最小二乘法」,即模型Ⅰ回歸分析;如果自變量是隨機變量,所採用的回歸方法與計算者的目的有關---在以預測為目的的情況下,仍採用「最小二乘法」,在以估值為目的的情況下須使用相對嚴謹的「主軸法」、「約化主軸法」或「Bartlett法」,即模型Ⅱ回歸分析。顯然,對於回歸分析,如果是模型Ⅰ回歸分析,就根本不可能回答變量的「相關性」問題,因為普通變量與隨機變量之間不存在「相關性」這一概念(問題在於,大多數的回歸分析都是模型Ⅰ回歸分析!)。此時,即使作者想描述2個變量間的「共變趨勢」而改用相關分析,也會因相關分析的前提不存在而使分析結果毫無意義。如果是模型Ⅱ回歸分析,鑑於兩個隨機變量客觀上存在「相關性」問題,但因回歸分析方法本身不能提供針對自變量和因變量之間相關關係的準確的檢驗手段,因此,若以預測為目的,最好不提「相關性」問題;若以探索兩者的「共變趨勢」為目的,建議作者改用相關分析。
需要特別指出的是,回歸分析中的R2在數學上恰好是Pearson積矩相關係數r的平方。因此,這極易使作者們錯誤地理解R2的含義,認為R2就是 「相關係數」或「相關係數的平方」。問題在於,對於自變量是普通變量(即其取值具有確定性)、因變量為隨機變量的模型Ⅰ回歸分析,2個變量之間的「相關性」概念根本不存在,又何談「相關係數」呢?(說明:二元回歸可決係數符號用小寫r2)
1、【原創·大秦學術·第二期】學術論文寫作方法——基於實證研究的視角
2、Stata : 論文中數據分析的一把利劍
4、盤點史上最牛的博士論文
5、中心已經正確的打開,等你來閱讀
計量經濟學服務中心
學術問題,一對一專家解決
打造中國最大的人文社科+經管類學術交流學習平臺
論文指導、軟體操作、學術技能、數據分析等,一起見證學術力量
見證學術力量
讓知識更有價值
讓學術更有價值
學術小組QQ群:219246913(500人大群)
打造中國最好的Eviews/SPSS/STATA/SAS/R諮詢群,做最好的學術交流群!
點擊圖片進一步了解中心
點擊左下角閱讀原文可以了解更多中心專題