1,T檢驗和F檢驗的由來
一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。
通過把所得到的統計檢定值,與統計學家建立了一些隨機變量的概率分布(probability distribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很 少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的(用統計學的話講,就是能夠拒絕虛無假設null hypothesis,Ho)。相反,若比較後發現,出現的機率很高,並不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能確定。
F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。
2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。
3,T檢驗和F檢驗
至於具體要檢定的內容,須看你是在做哪一個統計程序。
舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。兩樣本(如某班男生和女生)某變量(如身高)的均數並不相同,但這差別是否能推論至總體,代表總體的情況也是存在著差異呢?會不會總體中男女生根本沒有差別,只不過是你那麼巧抽到這2樣本的數值不同?為此,我們進行t檢定,算出一個t檢定值。與統計學家建立的以「總體中沒差別」作基礎的隨機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。若顯著性sig值很少,比如<0.05(少於5%機率),亦即是說,「如果」總體「真的」沒有差別,那麼就只有在機會很少(5%)、很罕有的情況 下,才會出現目前這樣本的情況。雖然還是有5%機會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現差異的 情況)不是巧合,是具統計學意義的,「總體中男女生不存差異」的虛無假設應予拒絕,簡言之,總體應該存在著差異。
每一種統計方法的檢定的內容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個數值。
至於F-檢定,方差分析(或譯變異數分析,Analysis of Variance),它的原理大致也是上面說的,但它是透過檢視變量的方差而進行的。它主要用於:均數差別的顯著性檢驗、分離各有關因素並估計其對總變異 的作用、分析因素間的交互作用、方差齊性(Equality of Variances)檢驗等情況。
4,T檢驗和F檢驗的關係
t檢驗過程,是對兩樣本均數(mean)差別的顯著性進行檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因 方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。所以,SPSS在進行t-test for Equality of Means的同時,也要做Levene's Test for Equality of Variances 。
1 在Levene's Test for Equality of Variances一欄中 F值為2.36, Sig.為.128,表示方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故下面t檢驗的結果表中要看第一排的數據,亦即方差齊的情況下的t檢驗的結果。
2 在t-test for Equality of Means中,第一排(Variances=Equal)的情況:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然Sig=.000,亦即,兩樣本均數差別有顯著性意義!
3 到底看哪個Levene's Test for Equality of Variances一欄中sig,還是看t-test for Equality of Means中那個Sig. (2-tailed)啊? 答案是:兩個都要看。先看Levene's Test for Equality of Variances,如果方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故接著的t檢驗的結果表中要看第一排的數據,亦即方差齊的情況下的t檢驗的結果。反之,如果方差齊性檢驗「有顯著差異」,即兩方差不齊(Unequal Variances),故接著的t檢驗的結果表中要看第二排的數據,亦即方差不齊的情況下的t檢驗的結果。
4. 你做的是T檢驗,為什麼會有F值呢? 就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要檢驗方差,故所以就有F值。
另一種解釋:
t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。
單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。
配對t檢驗:是採用配對設計方法觀察以下幾種情形,1,兩個同質受試對象分別接受兩種不同的處理;2,同一受試對象接受兩種不同的處理;3,同一受試對象處理前後。
F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。
從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等,可採用t'檢驗或變量變換或秩和檢驗等方法。
其中要判斷兩總體方差是否相等,就可以用F檢驗。
若是單組設計,必須給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分布;若是配對設計, 每對數據的差值必須服從正態分布;若是成組設計,個體之間相互獨立,兩組資料均取自正態分布的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須 在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。
簡單來說就是實用T檢驗是有條件的,其中之一就是要符合方差齊次性,這點需要F檢驗來驗證。
1、問:自由度是什麼?怎樣確定?答:(定義)構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。自由度的設定是出於這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制——要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,數據的總和就是一個常數了。所以,「最後一個」樣本數據就不可以變了,因為它要是變,總和就變了,而這是不允許的。至於有的自由度是n-2什麼的,都是同樣道理。在計算作為估計量的統計量時,引進一個統計量就會失去一個自由度。通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來了,自由度少一個了。簡單點就好比你有一百塊,這是固定的,已知的,假設你打算買五件東西,那麼前四件你可以隨便買你想買的東西,只要還有錢的話,比如說你可以吃KFC可以買筆,可以買衣服,這些花去的錢數目不等,當你只剩2塊錢時,或許你最多只能買一瓶可樂了,當然也可以買一個肉鬆蛋卷,但無論怎麼花,你都只有兩塊錢,而這在你花去98塊那時就已經定下來了。(這個例子舉的真不錯!!)
2、問:X方檢驗中自由度問題 答:在正態分布檢驗中,這裡的M(三個統計量)為N(總數)、平均數和標準差。因為我們在做正態檢驗時,要使用到平均數和標準差以確定該正態分布形態,此外,要計算出各個區間的理論次數,我們還需要使用到N。所以在正態分布檢驗中,自由度為K-3。(這一條比較特別,要記住!) 在總體分布的配合度檢驗中,自由度為K-1。在交叉表的獨立性檢驗和同質性檢驗中,自由度為(r-1)×(c-1)。
3、問:t檢驗和方差分析有何區別 答:t檢驗適用於兩個變量均數間的差異檢驗,多於兩個變量間的均數比較要用方差分析。用於比較均值的t檢驗可以分成三類,第一類是針對單組設計定量資料的;第二類是針對配對設計定量資料的;第三類則是針對成組設計定量資料的。後兩種設計類型的區別在於事先是否將兩組研究對象按照某一個或幾個方面的特徵相似配成對子。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下應用才是合理的。若是單組設計,必須給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正態分布;若是配對設計,每對數據的差值必須服從正態分布;若是成組設計,個體之間相互獨立,兩組資料均取自正態分布的總體,並滿足方差齊性。之所以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。值得注意的是,方差分析與成組設計t檢驗的前提條件是相同的,即正態性和方差齊性。t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。t檢驗得到如此廣泛的應用,究其原因,不外乎以下幾點:現有的醫學期刊多在統計學方面作出了要求,研究結論需要統計學支持;傳統的醫學統計教學都把t檢驗作為假設檢驗的入門方法進行介紹,使之成為廣大醫學研究人員最熟悉的方法;t檢驗方法簡單,其結果便於解釋。簡單、熟悉加上外界的要求,促成了t檢驗的流行。但是,由於某些人對該方法理解得不全面,導致在應用過程中出現不少問題,有些甚至是非常嚴重的錯誤,直接影響到結論的可靠性。將這些問題歸類,可大致概括為以下兩種情況:不考慮t檢驗的應用前提,對兩組的比較一律用t檢驗;將各種實驗設計類型一律視為多個單因素兩水平設計,多次用t檢驗進行均值之間的兩兩比較。以上兩種情況,均不同程度地增加了得出錯誤結論的風險。而且,在實驗因素的個數大於等於2時,無法研究實驗因素之間的交互作用的大小。
問:統計學意義(P值) 答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。P值是將觀察結果認為有效即具有總體代表性的犯錯概率。如P=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水平。
4、問:如何判定結果具有真實的顯著性 答:在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。實踐中,最後的決定通常依賴於數據集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴於總體數據集裡結論一致的支持性證據的數量,依賴於以往該研究領域的慣例。通常,許多的科學領域中產生P值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。結果 0.05≥P>0.01被認為是具有統計學意義,而0.01≥P≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。
5、問:所有的檢驗統計都是正態分布的嗎?答:並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分布中推導出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態分布,即滿足所謂的正態假設。許多觀察變量的確是呈正態分布的,這也是正態分布是現實世界的基本特徵的原因。當人們用在正態分布基礎上建立的檢驗分析非正態分布變量的數據時問題就產生了,(參閱非參數和方差分析的正態性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不方便,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當確定樣本量足夠大的情況下,通常還是可以使用基於正態分布前提下的檢驗。後一種方法是基於一個相當重要的原則產生的,該原則對正態方程基礎上的總體檢驗有極其重要的作用。即,隨著樣本量的增加,樣本分布形狀趨於正態,即使所研究的變量分布並不呈正態。
6、問:假設檢驗的內涵及步驟 答:在假設檢驗中,由於隨機性我們可能在決策上犯兩類錯誤,一類是假設正確,但我們拒絕了假設,這類錯誤是「棄真」錯誤,被稱為第一類錯誤;一類是假設不正確,但我們沒拒絕假設,這類錯誤是「取偽」錯誤,被稱為第二類錯誤。一般來說,在樣本確定的情況下,任何決策無法同時避免兩類錯誤的發生,即在避免第一類錯誤發生機率的同時,會增大第二類錯誤發生的機率;或者在避免第二類錯誤發生機率的同時,會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制,以減少發生這類錯誤的機率。大多數情況下,人們會控制第一類錯誤發生的概率。發生第一類錯誤的概率被稱作顯著性水平,一般用α表示,在進行假設檢驗時,是通過事先給定顯著性水平α的值而來控制第一類錯誤發生的概率。在這個前提下,假設檢驗按下列步驟進行:
1)、確定假設;
2)、進行抽樣,得到一定的數據;
3)、根據假設條件下,構造檢驗統計量,並根據抽樣得到的數據計算檢驗統計量在這次抽樣中的具體值;
4)、依據所構造的檢驗統計量的抽樣分布,和給定的顯著性水平,確定拒絕域及其臨界值;
5)、比較這次抽樣中檢驗統計量的值與臨界值的大小,如果檢驗統計量的值在拒絕域內,則拒絕假設;到這一步,假設檢驗已經基本完成,但是由於檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的,所以對於兩個數據比較相近的假設檢驗,我們無法知道那一個假設更容易犯錯,即我們通過這種方法只能知道根據這次抽樣而犯第一類錯誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯。計算 P值有效的解決了這個問題,P值其實就是按照抽樣分布計算的一個概率值,這個值是根據檢驗統計量計算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設,顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。而且通過這種方法,我們還可以知道在p值小於α的情況下犯第一類錯誤的實際概率是多少,p=0.03<α=0.05,那麼拒絕假設,這一決策可能犯錯的概率是0.03。需要指出的是,如果P>α,那麼假設不被拒絕,在這種情況下,第一類錯誤並不會發生。
7、問:卡方檢驗的結果,值是越大越好,還是越小越好?答:與其它檢驗一樣,所計算出的統計量越大,在分布中越接近分布的尾端,所對應的概率值越小。如果試驗設計合理、數據正確,顯著或不顯著都是客觀反映。沒有什麼好與不好。
8、問:配對樣本的T檢驗和相關樣本檢驗有何差別?答:配對樣本有同源配對(如動物實驗中雙胞胎)、條件配對(如相同的環境)、自身配對(如醫學實驗中個體的用藥前後)等。(好像沒有解釋清楚啊,同問這個,到底什麼區別呢?)
9、問:在比較兩組數據的率是否相同時,二項分布和卡方檢驗有什麼不同?答:卡方分布主要用於多組多類的比較,是檢驗研究對象總數與某一類別組的觀察頻數和期望頻數之間是否存在顯著差異,要求每格中頻數不小於5,如果小於5則合併相鄰組。二項分布則沒有這個要求。如果分類中只有兩類還是採用二項檢驗為好。如果是2*2表格可以用fisher精確檢驗,在小樣本下效果更好。
10、問:如何比較兩組數據之間的差異性 答:從四個方面來回答, 1).設計類型是完全隨機設計兩組數據比較,不知道數據是否是連續性變量?2).比較方法:如果數據是連續性數據,且兩組數據分別服從正態分布&方差齊(方差齊性檢驗),則可以採用t檢驗,如果不服從以上條件可以採用秩和檢驗。3).想知道兩組數據是否有明顯差異?不知道這個明顯差異是什麼意思?是問差別有無統計學意義(即差別的概率有多大)還是兩總體均數差值在哪個範圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數差值的置信區間來完成的。當然兩者的結果在SPSS中均可以得到。
11、問:回歸分析和相關分析的聯繫和區別 答:回歸分析(Regression):Dependant variable is defined and can be forecasted by independent variable.相關分析(Correlation):The relationship btw two variables. --- A dose not define or determine B. 回歸更有用自變量解釋因變量的意思,有一點點因果關係在裡面,並且可以是線性或者非線形關係;相關更傾向於解釋兩兩之間的關係,但是一般都是指線形關係,特別是相關指數,有時候圖像顯示特別強二次方圖像,但是相關指數仍然會很低,而這僅僅是因為兩者間不是線形關係,並不意味著兩者之間沒有關係,因此在做相關指數的時候要特別注意怎麼解釋數值,特別建議做出圖像觀察先。不過,無論回歸還是相關,在做因果關係的時候都應該特別注意,並不是每一個顯著的回歸因子或者較高的相關指數都意味著因果關係,有可能這些因素都是受第三,第四因素制約,都是另外因素的因或果。對於此二者的區別,我想通過下面這個比方很容易理解:對於兩個人關係,相關關係只能知道他們是戀人關係,至於他們誰是主導者,誰說話算數,誰是跟隨者,一個打個噴嚏,另一個會有什麼反應,相關就不能勝任,而回歸分析則能很好的解決這個問題 回歸未必有因果關係。回歸的主要有二:一是解釋,一是預測。在於利用已知的自變項預測未知的依變數。相關變數,主要在了解兩個變數的共變情形。如果有因果關係,通常會進行路徑分析(path analysis)或是線性結構關係模式。我覺得應該這樣看,我們做回歸分析是在一定的理論和直覺下,通過自變量和因變量的數量關係探索是否有因果關係。樓上這位仁兄說「回歸未必有因果關係……如果有因果關係,通常進行路徑分析或線性結構關係模式」有點值得商榷吧,事實上,回歸分析可以看成是線性結構關係模式的一個特例啊。我覺得說回歸是探索因果關係的並沒錯,因為實際上最後我們並不是完全依據統計的結果來判斷因果性,只有在統計結果和理論及現實比較吻合的基礎上我們才肯定這種因果關係。任何統計方法只是一種工具,但是不能完全依賴於這種工具。即使是SEM,我們也不能說完全認定其準確性,因為即使方法是好的,但是變量的複雜關係呈現的方式也是多種多樣的,可能統計只能告訴你一個方向上的最優解,可未必是最符合實際的,更何況抽樣數據的質量好壞也會使得結果不符合事實,從而導致人們懷疑統計方法的準確性。統計只說明統計關聯。不證明因素關係。回歸有因果關係,相關未必。回歸分析是處理兩個及兩個以上變量間線性依存關係的統計方法。此類問題很普遍,如人頭髮中某種金屬元素的含量與血液中該元素的含量有關係,人的體表面積與身高、體重有關係;等等。回歸分析就是用於說明這種依存變化的數學關係。任何事物的存在都不是孤立的,而是相互聯繫、相互制約的。身高與體重、體溫與脈搏、年齡與血壓等都存在一定的聯繫。說明客觀事物相互間關係的密切程度並用適當的統計指標表示出來,這個過程就是相關分析.
隨機抽樣與統計推斷的邏輯
學過統計學的人都知道可以對一個未知總體(population)進行隨機抽樣,通過對樣本(sample)的描述、計算(例如計算樣本均值、樣本方差),進而推斷總體的一些特徵(對某些假設進行檢驗,構造置信區間等等)。當然,很多現代的推斷方法都是「菜譜(cook book)」性質的,不需要非專業人士進行詳細掌握,例如,搞經濟學的人往往在不知道什麼是F分布的情況下也能知道如何檢驗F統計量並對結論進行解釋,甚至不用親手計算F統計量。但是,如果仔細思考一下其中的關係,可以看到這種隨機抽樣--推斷中包含著某種哲學,而這種哲學在某些地方的確顯式出了人類的智慧。
本質上,這種方法是用一組我們掌握了100%信息的數據(樣本),對一組我們幾乎不掌握信息或只掌握部分信息的數據(總體),進行擬合的過程。換句話說,以有知推未知的過程。因為是對「未知」的推斷,我們不可能有100%的把握,但同時是用「有知」的數據,所以我們不會一點把握都沒有。也許通過一個極為簡單例子我們可以看到背後的這種思維。下面就開始這個練習。
[例子]:假設一個學校有20000名學生,從中隨機抽取1000名學生,問,這個學校20000名學生的某門課的平均成績是否為70/100?注意,這裡並沒有作出有關總體的分布的假設。
[問題1]:我們能夠用樣本進行統計推斷了嗎?
似乎還不可以,邏輯上缺一步。這裡值得注意的是,所抽取的1000學生是否是「隨機樣本」?答案是否定的。
隨機抽樣的思想是:抽出來的樣本(sample)的分布是和總體(population)的分布是一致的,這一點對於每一個觀測值而言,能夠成立。但隨機樣本還要求每個觀測值(observation)相互獨立(independent),在這裡狹義的理解便是,每一個觀察值被取到的概率是相同的。但是在上面例子裡,這個條件顯然並不能被滿足(很多囫圇的學者往往忽略這個條件)。如果你收集了1000個學生的成績單,那麼這1000個學生的成績被抽到概率取決於其被取到的順序。由於一次抽取1000個學生的成績,每個學生被抽到的次數只是一次,不能被重複抽樣。於是,樣本中第一個學生被抽到的概率是1/20000,第二個學生被抽到的概率則是1/19999,第三個學生是1/19998,……第1000個學生為1/19000。也就是說,在一些學生被抽走之後,下一個學生被抽到的概率絕對不會等於1/20000。只有在有放回(with replacement)的抽樣中,我們才能說每個學生被抽中的概率是1/20000,也才能保證,我們抽取的是隨機樣本(random sample)。但是那樣的話,我們又很可能抽不到1000個樣本,因為一個學生被抽到大於一次重複的可能性不是零。
幸運的是,注意到這一千個概率值相差並不大(因為總體值夠大),那麼,可以近似地認為這1000個學生的成績是隨機樣本(random sample)。在做了這樣的近似之後,我們方可以進行統計推斷。這種近似在統計學中很普遍。例如,中心極限定理(central limit Theorem)說的是,大多數分布可以近似的看作正態(normal)分布,這使得正態分布在統計學中佔有極為重要的地位。這些分布的一個重要特徵便是,變量可以看成是觀測值的和(的函數),例如,二項分布可以看成是一組伯努裡試驗(bernolli tiral)結果的和。另外,例如泊松(poisson)分布可以看成是二項(binomial)分布,而後者又可近似看作正態分布。
但是,完成了這個近似,我們還需要更多的假設才能進行統計推斷和檢驗(inference and test)。例如,我們必須了解總體的分布情況,即使不知道所有參數的具體值。(目前假設我們只討論參數(parametric)方法)
[情形一]:我們確切知道這20000學生的成績符合(正態)分布,均值未知(unkown mean)但是方差已知(known variance)。
[問題2] 對於符合任意分布的樣本,樣本均值和樣本方差符合什麼樣的規律?
利用簡單的數學期望的性質可以得到如下關係:
(1)樣本均值的期望=總體均值。
(2)樣本均值的方差=總體方差/樣本數(樣本均值的波動沒有單個觀測值變化大)
通過這些變量,我們可以構造統計量Z:
(3)Z=(樣本均值-總體均值)/根號(總體方差/樣本數)。根據(1)(2)和中心極限定理,對於任何總體,Z統計量符合標準正態分布。值得注意的是,對於這個Z統計量,我們掌握了大量的信息。例如,對於任意給定的A值,我們完全可以計算出符合
(4)Pr(Z<|z|)=A%的z值。
但是由於Z是變量,我們並未掌握100%的信息。
注意(3)和(4)式的含義,由於我們可以算出樣本均值和樣本方差,總體方差,那麼z便是由總體均值唯一決定的函數。於是,我們可以反算出總體均值的函數表達式,因為總體均值僅僅是z的反函數。給定A,我們知道z的取值範圍,也就知道了總體均值的變化範圍。這個變化範圍就是我們所說的置(自)信區間(confidence interval),例如Pr(c1<總體均值<c2)=90%,c1是5%百分位(percentile)的數值,c2是95%百分位的數值。也就是說,總體均值落在c1,c2區間的概率是90%。
於是我們可以進行假設檢驗:H0:總體均值=70 VS H1:not H0。(assume:size=10%)。
這個時候,我們知道Pr(c1<總體均值<c2)=90%,那麼只要總體均值<c1或者總體均值>c2我們就可以在10%的水平上推翻H0。
[情形二]我們不知道總體方差,也不知道總體均值。
再看式子(3),我們知道不能用正態分布來進行推斷了,於是得用新的方法,即t分布。
根據定義,樣本方差=sum(觀測值i-樣本均值)^2;i=1,2,1000。
樣本均值=sum(觀測值i)/樣本數 i=1,2,……1000。
可以證明(過程複雜,需要用到正交矩陣運算),(樣本方差/總體方差)符合(樣本值-1)個自由度的卡方(chi-squared)分布。同時,樣本方差和樣本均值是獨立變量。
那麼構造新的t變量:t=Z/根號(卡方/自由度)。
值得注意,分子分母各是一個分式,各自的分母都帶有一個未知數,即總體方差。但幸運的是,這兩者互相銷去。於是,t只是由總體均值唯一決定的函數。
那麼我們又可以進行構造置信區間的練習。這裡需要指出的是,(i)對於符合任意分布的總體而言,Z符合標準正態分布,因為樣本均值是所有觀測值的「和」(乘以一個常數),只要樣本數夠大,中心極限定理保證了其近似於標準正態分布。(ii)但是,如果總體不符合正態部分,那麼我們無法進行t檢驗。因為無法保證樣本方差符合卡方分布,於是也就無法保證t符合t分布。
總結一下這裡的哲學。我們用了一個掌握了100%信息的樣本,計算了幾個值(樣本均值,樣本方差)。然後構造出了一個我們掌握了很大信息的統計量Z,或t。再用這些信息去了解我們掌握了少數信息的總體。耐人尋味的地方在於,這個符合標準正態分布的統計量Z,和t,其中的信息一些來自樣本,一些來自於總體。這個我們了解一部分的量,恰恰成為我們這種統計推斷的橋梁。因為直接分析總體的話,我們的信息不夠--我們幾乎什麼都不知道。而直接分析樣本,儘管我們有充分信息,這個樣本卻與總體均值的關係不夠緊密,我們只知道(1)式和(2)式。於是Z和t變量便起到了「曲線救國」的作用。但是,正因為如此,我們只能說,我們有A%的把握相信,總體均值落在(c1,c2)區間內。
當缺乏更多的信息時,我們就需要增加更多的步驟,例如,構造t變量需要證明樣本均值和樣本方差是獨立變量,還需要了解卡方分布。但是,前人們已經發現了這樣一些分布,為這種方法鋪平了道路。在我看來,這些人真真正正地極大推動了人類思想史的發展。這些人如何想出卡方分布這樣一個分布?如何找到正態分布和t分布之間的關係?這些本身就值得驚嘆。
[情形三]我們不知道總體的分布,也不知道任何參數。
前面說過,如果不知道總體的分布,只要知道總體方差,Z變量符合標準正態分布。但現在我們不知道總體方差,我們就甚至連參數方法都不能用了,應該採用非參數方法(nonparametic method)或半參數方法(semi-parametric method)。但是邏輯仍然是一致的,即需要通過一個中間的統計量來聯繫樣本和總體,例如,位序檢驗(rank test),規模檢驗(size test)都需要構造一個新的統計量。
精品推薦:
免費領取臨床試驗數據管理與統計編程全套乾貨資料包
免費領取| 第二期|臨床試驗數據管理與統計編程全套資料包!
SAS初級編程系列視頻在線免費高清觀看(電腦版)
實用|藥物臨床試驗必備文件及相關管理要求
匯總|ICH-eCTD法規合輯
匯總|臨床檢驗常用項目SI制和傳統單位換算係數簡表
好書推薦|免費領取臨床試驗幾本經典書籍
關注|臨床試驗中樣本量確定的統計學考慮
知識|臨床試驗中缺失數據的預防與處理
限時領取|實驗室常用檢測項目單位換算
概述|數據管理與統計學的關係
重點|臨床數據管理中的統計分析人群劃分
匯總|FDA臨床試驗常見詞彙中譯文對照
詳解|臨床研究和臨床試驗的關鍵概念(純英文100頁PPT)
收藏|各種臨床試驗終點
視角|Big Data for SAS Programmers(英文原版PPT)
聚焦|臨床真實世界研究中的實驗性研究設計
深度|新藥研發成本大揭秘
知識|臨床試驗源數據的管理
分享|病例報告表設計的要點
收藏|臨床試驗的原則和方法
概述|臨床試驗數據管理國際法規
知識|數據清洗(data cleaning)的重要性
匯總|很全的sas基礎知識(上)
乾貨|很全的sas基礎知識(下)
要點|臨床研究設計方法
統計|SAS有沒有控制有效數字的函數呢?
分享|臨床試驗研究統計方法
方法|臨床試驗缺失數據的處理及SAS實現
匯總|關於臨床試驗的100個問題與解答
限時領取|II-期、III-期臨床試驗方案模板-中文翻譯
要點|臨床試驗方案撰寫設計思路
統計|SAS實現臨床試驗前動態隨機化
乾貨|藥物臨床試驗流程及運作實例
知識|如何區分CRA(臨床監查員)與CRC(臨床協調員)的角色和職責
限時領取|臨床試驗方案模板
淺析|CRA臨床監查員(Clinical Research Associate)一職
乾貨|40頁PPT教你如何撰寫臨床試驗方案
收藏|78頁PPT詮釋藥物臨床試驗方案設計規範
聚焦|如何高效地設計出良好的CRF
乾貨|148頁PPT匯總【臨床研究中的數據管理標準CDISC】全部知識點
視點|我的臨床SAS Programmer之路
分享|CDISC 資料庫注釋 (中英文對照)
法規|ICH-GCP中英文對照(最完整版)
收藏|E9:臨床試驗統計原則(另附中英文對照詞彙表)
收藏|SAS快捷鍵大全
限時領取|臨床試驗精選案例統計學解讀
收藏|醫學統計學中英名詞對照
匯總|常用臨床醫學術語
限時領取|臨床數據獲取協調標準(CDASH)中文版
乾貨|56頁PPT詮釋臨床試驗數據管理與盲態數據審核
行業|臨床試驗專業術語整編匯總
分享|SAS編程技巧手冊
重點|SAS中最常用的10個命令
收藏|SAS函數列表
CDISC-SDTM基本理論及實踐系列文章匯總
抗腫瘤藥物臨床試驗技術指導原則 (2012-05-15)
腫瘤TNM分期法
SAS編程應用及相關知識分享系列文章匯總
歡迎掃碼添加小編小唐微信邀您進行業高端學習交流群!!!
更多,更及時的乾貨內容,請加我們的微信公眾號:cdiscgroup,誠邀業內人士及機構向我們投稿。投稿郵箱:1589510961@qq.com
【免責聲明】文章為網絡整理,不代表cdiscgroup立場。如因作品內容、版權等存在問題,請於本文刊發30日內聯繫cdiscgroup進行刪除或洽談版權使用事宜。