讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾

2020-12-06 讀書愛摘錄

生物醫學研究的統計方法

本書是生物醫學研究生使用的經典統計教材，內容易懂經典，無需多少數學基礎都能看懂。本書每個章節後面都有常見疑問，現匯總以供大家學習。

--------------------------------------------------------------------------------------

(1)如何確定研究總體與樣本?

總體的定義告訴了我們，總體是根據研究目的確定的同質研究對象的全體，也就是說確定什麼樣的總體與下列因素有關：

①研究的目的是什麼；

②研究對象是否同質(即使非處理因素儘可能相同)；

③是否為研究對象的全體。

樣本是從總體中抽取的部分研究對象，確定樣本應該注意：

①樣本是總體中的部分研究個體；

②樣本是能代表總體的樣本。

相對樣本而言，總體應該是「無限總體」或相對的「無限總體」(比如，在樣本含量足夠的前提下，樣本個體數小於總體個體數的500)，這是統計學推斷的理論基礎；如果總體不大，為「有限總體」，則數據分析的主要方法是統計描述；如要進行統計推斷，則應對有關指標進行校正。

(2)何為連續變量與離散變量?

可以在某一區間取任何值的變量就是連續變量，當測量精確度很高時，理論上數據之間無「縫隙」。數據之間存在「縫隙」的變量就是離散變量，如家庭人口數、脈搏跳動次數(次/min)、紅細胞計數等，離散變量只能取有限的幾個值。定量變量之中，有的屬於連續變量，有的屬於離散變量；但定性變量只能是離散變量。

(3)不同的編碼方式，所得結論相同嗎?

以上提到可將「文化程度」中的文盲、小學、中學、大學(假定為有序變量)及以上分別編碼為1,2.3,4，或按讀書年數編碼為0,6,12,16。無論哪種編碼，所得統計學分析的結論(如假設檢驗所得概率值)應該是一致的，但獲得的某些統計量(如回歸係數、優勢比等)有可能不相同。

(4)用恰當指標對定量資料進行統計描述，需要了解變量的分布形式。在實際工作中，是怎樣明確變量的分布形式的?

變量的分布形式，常可以通過查閱文獻得到。例如，文獻報導中學生的體重、肺活量服從對稱分布，其發硒含量則為正偏峰分布，那麼，我們就可以沿用文獻的做法。特別當參考文獻中的研究是基於大樣本時，一般認為變量的分布形式可以直接參照。

如果在相關文獻中未查到某醫學指標的分布規律，而該指標又是我們感興趣的變量，那麼就可以在大樣本基礎上，藉助SPSS等統計分析軟體對資料分布形式作統計檢驗。

(5)呈現事物的發展變化速度時，為什麼要用半對數線圖，而不能用普通線圖?

在用普通線圖表示事物隨時間變化而變動的情形時，線條縱向波動的位置僅反映了被研究指標在相應時間點上取值的大小。例如指標取值發生「10→100→1000」的變化時，給讀者的提示是，第一階段增加幅度為90，第二階段增加幅度為900，第二階段的增加幅度大於第一階段。但是，有時研究者欲傳達事物演變的變化倍數，例如前述指標在第一階段發生了「增大到原來的10倍」的變化，而第二階段也發生了「增大到原來的10倍」的變化，兩個階段變化的倍數相同。普通線圖可以直觀反映變化的「增量」，卻不能描述變化的「倍數」。

這時需藉助半對數線圖，將縱軸的尺度進行對數變換，使得「10→100→1000」的變化成為「1→2→3」，兩個階段的變化幅度均為1，準確地傳達了「變化的倍數均為10」這一信息。

(6)如何判定一組數據是否符合正態分布?

判定一組數據是否符合正態分布，通常有如下幾種方法：

①根據文獻報導。例如，文獻報導中學生的體重、肺活量服從正態分布，那麼我們可以沿用文獻的做法。

②根據經驗或專業知識判斷。例如，根據專業知識，同性別健康成人的紅細胞數、血紅蛋白含量、脈搏數等都近似服從正態分布，而正常成人的血鉛含量近似對數正態分布，經對數轉換後應近似服從正態分布。

③可以藉助統計軟體對資料作正態性檢驗或擬合優度檢驗。

(7)對稱分布在「X士1.96S」的範圍內，也包括95%的觀察值嗎?

不一定。「均數士1.96標準差」範圍內包含95%的變量值是正態分布的分布規律，不是對稱分布的分布規律。對稱分布不一定是正態分布。

(8)如何判定一組資料是否符合Poisson分布?

Poisson分布是離散型分布，變量的取值為非負整數，它是描述單位時間(面積、空間)內某罕見事件發生數的概率分布。實際應用中，如果某罕見事件的發生數滿足Poisson分布的應用條件，如水中細菌數、單位空間中的粉塵數、單位時間內放射性物質的脈衝數等，都可認為服從Poisson分布。另外，還可以對資料進行Poisson分布的擬合優度檢驗。

(9)何謂置信區間的準確度與精確度

置信區間有準確度(accuracy)精確度(precision)兩個要素。

準確度由置信度(1-α)的大小確定，即由「此區間包含總體參數」這句話可信程度(1-α)的大小來反映，從準確度的角度看，置信度愈接近於1愈好，如置信度99%比95%好；精確度是置信區間寬度的一半，意指置信區間的兩端點值離樣本統量的距離。從精確度的角度.看，置信區間寬度愈窄愈好。

在抽樣誤差確定的情況下，兩者是相互矛後的。若提高了置信度.即α減小。則檢驗統計量界值增大，置信區間變寬. 從而導致精確度下降；反之，降低置信度，即降低準確度，可適當增加置信區間的精確度。為了同時兼顧置信區間的準確度與精確度，可適當增加樣本含量；在置信度確定的情況下，增加樣本含量可降低抽樣誤差，從而縮小置信區間範圍，提高參數估計的精確度。

(10)置信區間與參考值範圍有什麼區別?

總體均數的置信區間與個體值的參考值範圍無論在含義、用途還是計算上均不相同。實際應用時，不能將兩者混淆，詳見表1

表1，置信區間與參考值範圍的區別

(11)標準差與標準誤有什麼區別與聯繫?

標準差反映個體觀察值圍繞均數的散布程度，即反映個體值彼此之間的差異。標準誤反映樣本統計量(如樣本均數)圍繞總體參數(如總體均數)散布的程度。

根據公式，標準誤小於標準差；樣本含量越大，標準誤越小；但標準差不隨樣本含量的改變而有明顯方向性改變，隨著樣本含量的增大，標準差有可能增加，也有可能減少。如果需要反映個體的變異程度大小，應採用標準差；如果需要反映由樣本統計量估計總體參數的精確程度，應採用標準誤或95%置信區間。其區別與聯繫可小結為表2。

表2 標準差與標準誤的區別與聯繫

(12) 如果樣本來自有限總體，如何作統計推斷?

統計學推斷建立在無限總體的基礎之上，如果樣本所來自的總體為有限總體(如樣本含量n大於5%倍的總體含量N)，則前面的標準誤計算公式應作適當修改，如樣本均數的標準誤計算公式應改為

樣本均數的標準誤計算公式

樣本頻率的標準誤計算公式應改為

樣本頻率的標準誤計算公式

其中N為總體中個體的含量，(N-n)/(N-1)稱為有限總體校正因子。當樣本含量n接近有限總體含量N時，(N-n)l(N-1)接近於0，相應的標準誤也接近於0。在絕大多數情況下，目標總體是有限總體，如果總體含量N相對樣本含量n很大，此時有限總體校正因子十分接近於1，因此通常情況下可忽略此項。僅當樣本含量n大於5%倍的總體含量N情況下，才採用上述公式進行計算。

(13) 假設檢驗中α與P有何不同？

α為決策者事先規定的「小概率值」(各種科研雜誌習慣上採用0.05或0.01)。在零假設成立的情況下，如果檢驗統計量取當前值以及取值更不利於H0的概率小於或等於α，則可以認為：在零假設成立的情況下，不大可能在某一次抽樣研究中出現當前的事件；但當前的事件居然發生了，我們不禁懷疑零假設是否真的成立，從而拒絕H0推斷H1成立。

所謂P值是指在H0成立的前提下，出現目前樣本數據對應的統計量(如Z、t、F值等)數值乃至比它更極端數值的概率。P值也是一個隨機變量，即不同的樣本可得到不同的P值。

(14)通過假設檢驗得到P>α.能否說明接受H0時犯錯誤的可能性很小?

不能，因為假設檢驗時，只是確定犯I類錯誤的概率a，可以按小概率事件拒絕H0，而不知道犯Ⅱ類錯誤的概率β，所以不能說明接受H0時犯錯誤的可能性很小

(15)通過假設檢驗得到P值很小，能否說明比較的總體均數相差很大?

所謂P值，是指在H0成立的前提下，出現目前樣本數據對應的統計量(如Z、t、F值等)數值乃至比它更極端數值的概率。它不但與均數實際值的差距有關，還與抽樣誤差的大小有關，所以不能單從P值的大小判斷總體均數差距的大小。

(16)進行兩樣本均數比較的t檢驗時，假設檢驗結果P值越小，則說明兩個總體均數相差越大嗎?

假設檢驗中，P是指H0成立時出現目前樣本情形的概率最多是多大，P值越小，說明如果H0為真，則「不大可能」出現目前的情況，即有理由懷疑H0為真的無效假設，因而拒絕H0，接受H1，即兩總體均數間存在著差值。所以，P值越小越有理由認為兩個總體間存在著相差，但並不能反映兩個總體均數相差的數值大小。

(17)單側檢驗較雙側檢驗更易檢驗出差別，是否應在假設檢驗中儘量選用單側檢驗?

當自由度和檢驗水準一定時，單側界值小於雙側界值，所以更容易得出差異性的結論，但並不能因此就選用單側檢驗。單雙側的選擇要結合專業知識：如果研究者關心的是甲乙兩組所屬總體均數(或者總體率)有無差別，即甲可能高於乙，乙也有可能高於甲時，一般選雙側；若根據專業知識，甲不會低於乙時，或者研究者僅關心其中一種可能時，可選用單側。一般來講，雙側檢驗較為穩妥。

(18)既然秩和檢驗對資料沒有嚴格的要求，是否在進行兩組間均數比較時可直接採用秩和檢驗?

這樣做不能認為是錯的，但不是最好的分析策略。秩和檢驗對資料沒有嚴格的要求，但滿足正態分布條件時其檢驗功效比t檢驗的檢驗功效低一些，所以通常只用來對偏峰分布資料進行假設檢驗。

(19) t檢驗能否用於多組間均數的比較?

t檢驗主要用於兩組間均數的比較，多組間均數的比較若採用t檢驗，會增大犯I類錯誤的概率。所以，多組間均數進行比較時應首先考慮方差分析及SNK,LSD等多個樣本均數的兩兩比較技術(詳見方差分析)。

(20)如何理解假設檢驗中的大樣本和小樣本?為什麼樣本量較大時不必進行正態性檢驗?

在假設檢驗中，大樣本和小樣本只是相對於資料的偏峰程度而言的，偏峰程度越大，要求樣本量就越大，但一般情況下，當樣本量大於50時，可以理解為樣本量較大。此時，即便原始變量X有些偏離正態，其樣本均數也會近似正態分布。因此，對大樣本資料可以不必進行正態性檢驗。

(21)在成組t檢驗中，當P<0.05並且時，為什麼就能推斷?

在成組t檢驗中，當P<0. 05並且，則可以證明的95置信區間的下限大於0，由此在95%置信度的前提下，推斷；同理，當P<0.05並且時，則可以證明：的95%置信區間的上限小於0。，由此在95%置信度的前提下，推斷。

(22)為什麼不宜直接對多組定量資料進行方差分析？

進行方差分析的數據應滿足兩個前提：

①各樣本是相互獨立的隨機樣本，均服從正態分布；

②各樣本的總體方差相等，即方差齊性(homogeneity of variance)。

因此，對多組定量資料進行方差分析首先要進行方差齊性及各樣本的正態性檢驗，符合方差分析的條件再行方差分析及必要時進一步的兩兩比較。否則，若不滿足方差分析條件，則需作數據變換，使其滿足方差分析的條件，或選Kruskal-Wallis秩和檢驗。

(23)若三個樣本均數的比較經ANOVA分析有統計學意義，在多重比較中出現了「不拒絕μ1≠μ2，也不拒絕μ1≠μ3，但拒絕μ2=μ3」的結果，該結果應如何解釋？為什麼？

按假設檢驗的基本原理，該結果可解釋為：有理由認為μ2≠μ3，但還沒理由認為μ1≠μ2及μ1≠μ3。因為統計結論在一定概率意義下成立，不能按確定性數學方式遞推。該結果既不能解釋為：μ1介於μ2和μ3之間；也不能遞推為：μ2=μ1，同時μ1=μ3，那麼μ2=μ3。

(24)是否一定要經ANOVA發現有統計學意義後，再作均數間的兩兩比較?

一般地說，經ANOVA發現有統計學意義後，再作均數間的兩兩比較，但不是絕對的。實際上，這種ANOVA發現有統計學意義後，再作均數間的兩兩比較屬於事後未計劃的比較。均數間兩兩比較的方法很多，有十餘種之多。並且也不很成熟。有些統計學專家提出某些多重比較可不依賴方差分析的結果。另外，在分析資料時有時會出現ANOVA有統計學意義而兩兩比較均無統計學意義，或ANOVA無統計學意義而兩兩比較某些均數間有統計學意義的現象，這兩種現象往往發生於算得的P值在規定的檢驗水準α附近，下結論時需特別謹慎。

(25)多重比較的方法很多，可否各種方法都用一用，哪個方法給出的P值好，就報告哪個方法的結果?

多重比較的方法很多，多重比較時甚至會出現某些方法間(如Bonferroni法與LSD法)統計結果不一致現象，這實際上涉及多樣本均數兩兩比較方法選擇的問題。要根據研究的目的選擇兩兩比較的方法。當在設計階段就根據研究目的或專業知識而計劃好某些均數間的兩兩比較、用於探索性研究時，可選用LSD法，即選用LSD法結果。LSD法靈敏度比較高，但Ⅰ類錯誤可能會增大，適用於組數g較小且僅對某些特定的組間比較感興趣時；當在研究設計階段未預先考慮或預料到，經假設檢驗得出多個均數不等的提示後，才決定多個均數的兩兩比較時可選用Bonferroni。Bonferroni法比較簡單，廣泛應用於不同場合的兩兩比較，但結論比較保守，可用於證實性研究。因此，多重比較各種方法都用一用選P值的做法是不妥的。

(26)當例數較少或理論頻數較小時，為什麼要用校正χ2檢驗或Fisher精確檢驗

因為χ2檢驗統計量的抽樣分布是矩形分布，χ2分布為連續性分布。利用χ2檢驗統計量進行列聯表差異性檢驗時是通過用χ2分布作為χ2統計量分布的近似方法進行的。χ2統計量計算結果往往較大，特別是在自由度較小、樣本量較少情況下。因此Yetes提出了校正的方法。

在實際應用中，當樣本含量大於40，理論頻數都大於5時，χ2統計量近似性較好，可以不進行校正；但是當存在理論頻數小於5時，近似性較差，需進行校正；當例數小於40或存在理論頻數小於1時，近似性更差，因此主張改用更合適的Fisher精確檢驗代替χ2檢驗。

(27)對於多組二分類資料和無序多分類資料，能否通過轉化為多個四格表資料分別進行檢驗?

對於多組二分類資料和無序多分類資料，若轉化為多個四格表資料分別進行檢驗，割裂了原來的設計，更重要的是會增加犯Ⅰ類錯誤的概率。例如對於3X3列聯表，檢驗水準取0.05，若轉化為多個四格表資料分別進行檢驗，應進行9次檢驗，這樣犯Ⅰ類錯誤的概率將達到1-((1-0.05)9=0.37，遠遠大於0.05。

因此，對於多組二分類資料和無序多分類資料，不能通過轉化為多個四格表資料分別進行檢驗。當多組二分類資料和無序多分類資料檢驗結果拒絕假設H0時，可以進一步作兩兩比較，但α水平需要按α/比較次數來校正。

(28)對於有序多分類資料，用無序多分類資料方法進行差異性檢驗會出現什麼問題?

因為列聯表χ2檢驗的χ2統計量只能處理頻數分布的差異性檢驗，沒有處理有序信息的能力，不能利用數據所提供的有序信息進行分析。因此，若使用無序多分類資料分析方法進行有序多分類資料的差異性檢驗，將會降低統計檢驗效能。

(29) 是否所有資料皆可作相關分析?

只要輸入數據，電腦就可以進行相關係數的計算，但這不表明任何資料皆可進行相關分析。相關分析要求兩變量皆為隨機變量，如果X是人為取值，則不宜計算相關係數。計算Pearson相關係數還要求資料為雙變量正態分布。同時應注意，資料類型不同，所採用的刻畫相關或關聯的方法也不同。

(30) 程序中自動給出了相關係數值和假設檢驗結果，為什麼還要作散點圖呢?

的確，有不少研究不作散點圖就給出相關係數值和假設檢驗的結果，但這樣做可能會出現兩變量間實際沒有線性關係而作出線性相關的決定，也可能不容易發現資料有異常值或有分層的情況等。因此，相關分析必須先作散點圖，確認有線性關係時才計算相關係數，並對其進行檢驗。

(31) 若兩組比較某指標的均數不同，是否可以說明該指標與分組因素相關?

要注意「相關」是一個專業用語，有特定的含義。僅均數不同不能認為相關，若各組均數差別有統計學意義，可以認為不同組間總體水平不同。通常所說的「某指標的均數與分組有關」和統計學所說「某指標與分組變量間線性相關」是兩個不同的概念。線性相關的結論必須通過相關分析或關聯分析才可得到，而分組因素常人為劃定，非隨機變量，不可作相關分析或關聯分析，即便作了計算，也不能得出相關的結論。

(32) 經統計檢驗得出總體相關係數不為0，且P值很小，是否可以認為變量間關係很大?

統計檢驗的P值是指總體相關係數為0時，得到等於或大於目前這個樣本相關係數的概率大小。若P值小，說明總體相關係數為0時，不大可能得到目前這個樣本相關係數，從而懷疑總體相關係數是否為0。不論P值多麼小，結論只能是總體相關係數不為0而已。樣本量小時，樣本相關係數值很大也可能得出沒有統計學意義的結果；反過來，樣本量大時，很小的樣本相關係數值也可以拒絕零假設。如樣本量大於50時，r=0.279就可以得到P<0.05的結果，而樣本量為5時，即使r=0.870時仍得到P>0.05的結果。

(33) 既然Spearman等級相關對資料性質沒有要求，是否所有資料皆可用等級相關?

文獻確有把Spearman等級相關當成萬能相關方法。不管什麼樣的資料都可用Spearman等級相關方法，但這樣做的結果會損失信息，降低功效。因此，應根據資料類型和適用條件選用相關強度指標。當兩變量為連續型隨機變量時，通常採用積矩相關係數。

(34) 計算Spearman等級相關係數時，怎麼有人採用公式?

實際上，無相同秩次時，此公式與利用秩次採用Pearson相關係數的公式計算時完全等價，但有相同秩次時一般不宜用此公式。此公式為過去計算機不甚普及時推算出的無相同秩次的簡便計算公式，有相同秩次時需要校正。

(35) 多組比較的RX2表或RXC表和本章的RXC表在設計上有區別嗎?

多組比較的Rx2表或RXC表，屬於完全隨機設計資料。多組資料比較的設計是，首先設定組別(如三種國籍人群)，各組例數的調整不受其他組別的影響，然後調查各組的頻率分布(血型分布)情況，分析各組(三種國籍)的頻率分布(血型分布)是否不同。本章的RXC表資料是一次調查的結果，可看作是總體中的一份樣本，其樣本含量<2500例)是固定的，某屬性之一(如國籍中美國人)的例數變動必使該屬性其他分類(如國籍中中國人和挪威人等)的例數反向變動，統計時按兩種屬性(國籍和血型)交叉分類統計頻數，得到兩種屬性是否獨立的結果。

(36) 如何識別與處理異常點?

在實踐中，科研工作者鑑別數據中的異常點是進行統計分析前首先要完成的一項工作，否則會導致錯誤而前功盡棄，得不償失。有些「統計謊言」正是由於分析者疏忽異常點的存在，誇大或弱化實際效應而造成的，如圖10-10,虛線代表受異常點影響而偏離的回歸線。異常數據的識別可以通過簡單、直觀、有效的散點圖發現，也可以通過相關統計量(如廣義平方距離)獲得。通過散點圖可直觀地反映哪些數據是可能的異常數據。

一旦發現可能的異常數據，不宜草率地刪除，應該仔細審查這些可能異常數據的獲得過程。若是由實驗獲得的，如有可能應該重新在該點重複作幾次實驗進行驗證。只有當異常數據是由於實驗失誤、記錄錯誤等人為因素造成的，才考慮刪除或以重新測量的正確數據來替代。如果通過仔細審核發現數據的異常值是因數據本身性質造成的，對這樣的數據應該引起足夠的重視，對它進行另外的研究有可能獲得意外的發現。

(37)兩變量不是線性關係時怎麼辦?

在複雜的生物醫學現象中，很多情況是兩個變量間的關係呈非線性變化趨勢，如血藥濃度與時間效應曲線、生長曲線、劑量反應關係等。對於非線性的問題，如果仍一味採用簡單的線性回歸分析，其直接後果是歪曲實際的變化規律。實際工作中，採用曲線擬合的方法，常用的曲線類型有：

1)指數曲線又稱指數生長曲線，雙變量資料中，當自變量X增加時，因變量Y隨之增加(或減少)得更快，這時可採用指數曲線方程來分析兩變量之間的關係。

2)多項式曲線多項式曲線方程為拋物線性，當為一次時則為簡單線性模型，模型中加人b2X3、b3X3項，則為二次、三次多項式曲線。多項式適合於標準曲線的繪製。

3) Logistic曲線又稱Pearl-Reed曲線，呈拉長的「S「形曲線，多用於發育、動態率、劑量反應關係以及人口等方面的研究，在後面章節中講到的logistic模型即屬於此。

4)雙曲線與指數曲線相類似，但適用於彎曲程度更大的資料，如肌肉張力、神經生理方面強度一時間數據的分析。

SPSS軟體可以實現更多的曲線擬合，方便科研工作者應用。實際工作中，應根據散點圖嘗試擬合多種曲線。如何確定最終的曲線類型，要掌握以下原則：

① R2越大，擬合效果越好。但不必過度地追求好的擬合優度，如擬合多項式模型時，雖冪次越高，R2越大，但會給解釋上帶來麻煩。②要考慮曲線類型是否符合專業解釋。

③在擬合優度相近的情況下，一般選擇容易解釋、易於表達的曲線類型。，

(38) 兩批數據能合併後擬合線性回歸方程嗎?

實際工作中，常有X與Y變量來自於兩批數據，不能輕易將兩批數據合併後進行回歸分析，所分析樣本應保證來自一個總體(即保證同質)。如果兩批數據來自兩個不同的子群，可能得出不符合實際的結論。如圖10-11所示，實點與虛點分別代表兩批數據，圖10-11a中實際不存在的回歸關係，合併後被誤認為有回歸關係；圖10-11b有可能存在回歸關係，合併後會被誤為無回歸關係。在此，兩個子群成為影響回歸關係的混淆因素。

電腦實驗(實驗10-4)中對盲目合併數據誤導專業結論的情形進行了數據模擬分析。對這類數據需要進行分組分析或在多重線性回歸分析中引入交互項的辦法來分析處理，分析方法參見第11章。

(39)如果反應變量是有序的或分類的變量，應該怎麼辦?

多重線性回歸分析要求在固定自變量的情況下，反應變量Y是服從正態分布的連續型隨機變量(也就是殘差服從正態分布)，如血壓值、身高、體重等。但是，在醫學研究中，一些反應變量往往是分類變量。例如，心功能的分級就是一個有序分類變量，雖然各級之間有程度上的差別，但是1級(體力活動不受限制)和2級(體力活動輕度受限)之間的差別並不等同於3級(體力活動明顯受限)和4級(不能從事任何體力活動，休息時亦有症狀)之間的差別。也即這裡的數字1,2,3,4僅僅代表不同的等級，並不代表實際的數量大小。另外，無序的分類變量在醫學研究中也很常見，例如治療的結局分為治癒和死亡。當反應變量是有序或無序的分類變量時，不能採用多重線性回歸對資料進行多因素分析，可以考慮採用logistic回歸等其他多因素分析方法。

(40)自變量存在缺失數據時怎麼辦?

進行多因素分析時，如何處理缺失數據是一個常見的問題。所謂缺失數據，常指觀察對象在某些變量上的數值缺失，例如缺少年齡、性別或者血壓值等方面的信息。缺失的原因可能是偶然的、隨機的，如調查時由於疏忽漏填了；也有可能是系統性的，如由於疾病惡化而沒有提供信息。對於有缺失數據的觀察對象，不能簡單地刪除。人們針對缺失數據常見的處理方法是：

1)儘量了解缺失的原因，儘量彌補缺失的數據。

2)對每個自變量考察缺失數據的多少。

3)如果有一兩個自變量的缺失數據較多，考慮刪除該自變量。無論自變量在專業上意義如何重大，如果存在大量的缺失數據，則結果極可能存在偏倚。

4)如果極少的觀測有缺失數據，可以在分析前刪除這些觀測。

5)如果大量觀測有缺失數據，應該分析有缺失數據的觀測和沒有缺失數據的觀測之間的差別，也即考察缺失的原因是隨機的還是非隨機的。如果有缺失數據的觀測組成的樣本的基本情況與沒有缺失數據的觀測組成的樣本的基本情況無差別，則稱數據的缺失是隨機的，反之，為非隨機缺失。如果數據的缺失是隨機的，可以採用完全數據的均數填補缺失數據。如果數據的缺失是非隨機的，應分別分析有缺失數據的觀測組成的樣本和沒有缺失數據的觀測組成的樣本資料，且下結論需慎重，以防止偏倚。

(41) 自變量篩選是必須要做的嗎?

前面介紹了多重線性回歸分析中自變量篩選的統計學標準和篩選策略，那麼在實際應用中自變量的篩選是必須要做的嗎?有時並不是必須要做的，有時又是必須要做的。是否進行變量的篩選取決於專業的理論、經驗以及資料的實際情況。最後得到的模型不僅要符合統計學的要求，更重要的是從專業上得到合理的解釋。

(42)如何判斷是否存在多重共線性

一種簡單的方法是計算所有自變量的相關係數矩陣。如果兩個自變量之間的相關係數超過0.9，則會帶來共線性的問題；如果相關係數在0.8以下，一般不大會出現問題。另外，統計學家還提出了兩個幫助判斷是否存在多重共線性問題的統計量，它們分別是方差膨脹因子(variance inflation factor, VIF)和容忍度(tolerance)。

下面簡單介紹VIF的原理和計算方法。假定有p個自變量，依次把每一個自變量當作反應變量與餘下的p-1個自變量進行多重線性回歸分析。表示當第j個自變量被當作反應變量時多重線性回歸方程的確定係數，j=1，2，…，p。針對每個多重線性回歸方程，VIF定義為：

如果第j個自變量與餘下的p-1個自變量相關密切，則接近於1,VIFj會較大。研究結果提示，當VIF>4時，可能存在共線性問題；如果VIF>10，則共線性問題嚴重。

容忍度是VIF的倒數，因此如果容忍度小於0.25，則可能存在共線性問題，如果容忍度小於0.10，則提示共線性問題嚴重。

(43)如果實驗條件滿足配對設計要求，研究者卻採用了成組設計，這將意味著什麼?如果實驗條件不滿足配對設計要求，研究者卻一定要套用配對設計，又將意味著什麼?

如果實驗條件滿足配對設計要求，即能夠找到對觀測結果有影響的重要非實驗因素，而且受試對象可以按此非實驗因素進行配對，此時研究者卻採用了成組設計，這將意味著人為增大了實驗誤差，易導致假陰性結果的出現；如果實驗條件不滿足配對設計要求，即無法找到對觀測結果有影響的重要非實驗因素，此時研究者卻一定要套用配對設計，實際上各對受試對象除處理因素取不同水平外，在其他方面相差懸殊，若按配對設計方法處理實驗數據，將意味著人為降低了實驗誤差，易導致假陽性結果的出現。

(44)單因素設計簡便易行，可以通過隨機化方法平衡其他因素對單因素各水平組中觀測結果的影響，是否可以不考慮任何多因素實驗設計方法?

在進行實驗設計時，通常涉及兩類因素。其一，研究者關心的實驗因素；其二，研究者不關心但客觀上會影響觀測結果取值的因素，比如區組因素。當某實驗僅涉及多個實驗因素，且實驗因素的數目大於等於2時，若在實驗設計時將其他實驗因素控制在各自特定的水平上，每批實驗只允許一個實驗因素取不同水平，即採用單因素設計取代多因素設計的作法是不夠妥當的。若希望通過實驗研究，弄清多個實驗因素之間的相互關係，通常情況下以選用析因設計為宜。

(45)在實驗設計中，對照組的設立十分重要，一般來說，應設立幾個對照組合適?

在實驗設計中，應設立幾個對照組不便一概而論，主要取決於實驗研究的目的和涉及的實驗因素的個數。

①如果是標準的單因素多水平設計，通常只需要設立一個對照組即可。例如，希望考察某藥物取小、中、大三個劑量所產生的療效之間的差別是否具有統計學意義，當對此藥物的療效一概不知時，需要設立一個空白對照組，即採用單因素4水平設計；當已知該藥開始起效的最低劑量時，可以不設立空白對照組，該藥物的小、中、大三個劑量組互為對照，即採用單因素3水平設計即可。

②在某些實際問題中，有人常設立多個對照組，如正常(或空白)對照組、模型對照組、陽性藥對照組，其他是研究者所研究的新藥取幾個不同劑量的實驗組。

③如果是標準的多因素實驗設計，所有組都有其特定含義，往往是同一個實驗因素各水平組之間相互對照，如多因素析因設計。

(46) 在實驗設計中，如何根據情況選用合適的實驗設計類型?

這是一個比較複雜的問題，只能概括地講一下選用的基本原則。如果在實驗中研究者關心的實驗因素只有一個，來自受試對象的各種重要的非實驗因素的影響可以通過完全隨機化方法使之在實驗因素各水平組之間達到均衡一致，則可以選用單因素k水平設計((k=2時為成組設計，k=3時為單因素多水平設計)；如果在實驗中研究者關心的實驗因素只有一個，但來自受試對象的各種重要的非實驗因素的影響無法通過完全隨機化方法使之在實驗因素各水平組之間達到均衡一致，則應考慮選用隨機區組設計或交叉設計；如果在實驗中研究者關心的實驗因素的個數大於等於2，來自受試對象的各種重要的非實驗因素的影響可以通過完全隨機化方法使之在實驗因素各水平組合之間達到均衡一致，則可以選用析因設計。析因設計需要的實驗次數較多，如果實驗經費、時間和人力等都很難達到要求，可考慮選用其他多因素實驗的設計方法，請參閱實驗設計專著。

(47) 在進行新藥臨床試驗時。無論從形式還是從內容上，都嚴格按我國《新藥註冊管理辦法》中明文規定的要求去做，是否是最正確的?

由於相當多的研究者對Ⅱ、Ⅱ期臨床試驗的本質理解不夠深入，又由於國家審評部門對新藥臨床研究的要求過於簡單和格式化，導致絕大部分臨床試驗都照搬《新藥註冊管理辦法》的基本要求，試驗方法和類型千篇一律，無法妥善處置可能遇到的特殊問題。應該採取實事求是的態度，在原則問題上嚴格按國家有關規定辦理，而對於各種情況下遇到的具體細節問題，應從多種處置方案中選擇最優者。

(48) 在進行新藥臨床試驗時，可否直接按我國《新藥註冊管理辦法》中明文規定的樣本含量的最低要求來確定樣本含量?

多數臨床試驗沒有進行樣本含量估算，而僅僅按照《新藥註冊管理辦法》對病例數的最低要求來做，致使一部分研究不能得到有說服力的結論。應根據預試驗或借鑑他人經驗信息，獲得有關本試驗研究所需要的基本信息，選用合適的估計樣本含量的公式或專業軟體估計出樣本含量N。當估計出的N大於《新藥註冊管理辦法》對病例數的最低要求時，就以N為樣本含量；反之，應按《新藥註冊管理辦法》對病例數的最低要求確定樣本含量。

(49) 在進行新藥臨床試驗時，如何正確選擇評價指標?

評價指標的選擇是臨床試驗的核心問題，應當在清晰確定臨床試驗目的的基礎上，根據臨床醫學專業知識，選擇最恰當的評價指標。應當充分重視終點指標和實驗室替代指標，慎重使用綜合指標和難以定量的指標(主觀性指標)，切忌試驗目的不明確，以多指標為主要評價指標的大撒網式研究。

(50)在進行與中藥有關的新藥臨床試驗時，應著重考慮的問題是什麼?

中藥作為中國創新藥品的重要源泉，其臨床試驗在評價指標選擇和評價方法上存在很多爭議，致使中藥臨床試驗結論很難與西醫或國外進行溝通。因此，應著重考慮的問題是評價指標的選擇和評價方法的確定，即評價對象和評價工具保持一致，才有可能相互比較、溝通和理解。

(51)在進行新藥臨床試驗時，數據管理至關重要，應在哪些方面把好質量關?

目前在中國的臨床試驗中，數據管理的三個要點(準確、及時和安全)難以高品質地實現。在這方面，應進一步提高認識，建立健全操作規程，嚴格按操作規程進行質量監督和檢查。

(52)臨床試驗質量控制非常重要，它包括哪些方面呢?

通常，臨床試驗質量控制包括檢查、稽查、視察、研究者控制、數據管理和統計分析控制，在這些方面，我國的臨床試驗質量控制水平尚沒有達到國際要求，存在著試驗數據有可能失真的隱患。

(53) 在調查研究中，如何控制和保證調查質量?

在調查研究中，主要從以下幾個方面進行質量控制，以保證調查結果的可靠性：

1)現場調查工作階段的質量控制。

2)資料整理、表達與統計分析階段的質量控制。

3)偏倚的控制。

(54)在調查敏感性問題時，如何能獲得比較真實的答案?

在調查研究中，有時需要了解一些隱私問題(包括心理、行為、與「性」有關的問題等)。當詢問此類問題時，調查對象往往不願意回答或給出的答案是不真實的，這類問題統稱為敏感性問題。

在調查敏感性問題時，要想獲得比較真實的答案，需要打消調查對象的思想顧慮。首先，調查表或問卷上應當是無記名的；最好調查者不在現場，在一個未安裝監視器的大廳內(室內外無其他人)，調查對象將填好後的調查表投人加鎖的投票箱內；更讓調查對象放心的方法是他們回答的是敏感問題還是非敏感問題，調查者一概不知，更不用說他們對敏感問題作出的是肯定還是否定的回答了，實現後者的調查技術需要較深的概率論知識。

(55) 希望說明一種新藥物或新療法是否優於常規藥物或療法，請問：我應當採用多大的樣本?

這是相當多的研究者在進行科研工作之前經常提出的問題，但又是無法回答的問題。因為估計樣本含量需要很多信息，第一，要知道所作的研究屬於何種研究類型，實驗設計、臨床試驗設計和調查設計所用的樣本含量計算公式是不完全相同的；第二，即使是實驗設計，還涉及擬解決問題的複雜程度；第三，需要給定與擬解決問題對應的一些基本信息。憑空估算樣本含量是沒有科學依據的，因而也是無意義的。

(56) 樣本較小時結論不可信，是否樣本特別大時結論就一定可信?

不一定!要看擬解決的問題的複雜程度和對重要非實驗因素的控制質量。若實驗研究涉及多因素多水平設計問題，即使總樣本含量特別大，但分到每個小組中去的受試對象的個數卻很小時，其結論仍是不可信的；若實驗研究涉及單因素多水平設計問題，但由於許多重要的非實驗因素對實驗因素各水平組的影響很不均衡，即使各組樣本含量均較大，其結論也是值得懷疑的，甚至是錯誤的。

(57)是否有辦法使一項科研工作的結論同時犯假陽性錯誤和假陰性錯誤的概率都很小?

比較好的辦法是：提高統計研究設計的質量和研究過程的質量控制水平，同時，使各小組具有足夠的樣本含量，組間具有很好的均衡性。

(58) 我不想論證兩種藥物療效之間的差別，而是想說明兩種藥物效果差不多，從而一種較便宜的藥物便可以取代另一種較昂貴的藥物，這時，樣本量該怎麼考慮?

此時，研究的目的叫作「等效性檢驗」，應根據此類檢驗對應的樣本含量估計公式進行估計，請參閱有關專著。

(59) 對於一個隨機區組設計資料，我們既用單因素方差分析，也用兩因素方差分析，發現假設檢驗的結論一致，難道用單因素方差分析不可以嗎?並且計算簡單。

不可以。對於隨機區組設計資料，儘管用兩種方法分析的檢驗結論可能多數情況一致，但兩因素方差分析可從總變異中分解出處理因素和區組因素導致的變異，單因素方差分析只從總變異中分解出一個因素所致的變異，因此與單因素方差分析的組內變異相比，兩因素方差分析的誤差變異減少了其他因素對隨機誤差的影響，更接近真正的「隨機誤差」，因此據此計算F統計量並推斷更準確合理;另外，單因素方差分析檢驗效能較低。

(60) 當經方差分析認為析因設計資料中某因素的主效應有統計學意義，而交互效應無統計學意義時，欲知哪個水平最好，應如何分析?如何選擇最佳的實驗組合?

當該因素水平數超過2時，可以對該因素不同水平間的主效應作多重比較，比較的方法可參見《醫學統計學》(餘松林主編，人民衛生出版社，2002)第110頁。選擇最優實驗組合時，當因素間交互效應差異無統計學意義，而各因素均有統計學意義時，則各因素最佳實驗水平的組合即為最優實驗組合;如果某因素無統計學意義，則從中選擇經濟、簡便、無(低)痛苦、無(低)不良反應的實驗水平。

(61 )析因設計資料經方差分析後某兩因素的交互效應有統計學意義，如何選擇實驗條件?

可通過對各種實驗組合的多重比較選擇實驗條件，比較的方法可參見《醫學統計學))(餘松林主編，人民衛生出版社，2002)第110頁。當兩種組合間比較差異有統計學意義時，選擇實驗效果更佳的實驗條件;若差異無統計學意義，則選擇經濟、簡便、無(低)痛苦、無(低)不良反應的實驗組合。

(62) 交互效應與交互作用有何不同?如何判斷實驗因素間有無醫學上常說的拮抗作用和協同作用?

交互效應是指在方差分析中描述交互作用項的參數，對於多因素的實驗性研究中，研究因素的各個水平是有序的，代表了每種幹預的強度，如果兩個因素主效應均大於0，則其交互效應>0，說明兩種幹預的疊加效應大於兩種單獨幹預的效應之和，故稱為協同作用;反之，如果兩個因素主效應均大於0，而其交互效應<0，說明兩種幹預的疊加效應小於兩種單獨幹預的效應之和，故稱為拮抗作用。

(63)在重複測量設計的方差分析中，處理效應是什麼?

在同樣的其他條件下，不同處理所對應的觀察變量的總體均數差異，在例17-1中的處理效應是試驗藥與對照藥治療慢性B型肝炎的ALT總體均數差異。

(64)在重複測量設計的方差分析中，時間效應是什麼?

時間效應是指在同樣的處理和其他條件下，觀察變量的總體均數隨著時間變化所對應的差異。在例17-1中的在同為試驗藥或對照藥治療慢性B型肝炎的情況下，ALT總體均數隨著時間變化所對應的差異。

(65)在重複測量設計的方差分析中，處理效應與時間效應的交互作用是什麼?

如果不同處理所對應的總體均數之間的差異隨著觀察時間變化而變化，則稱為處理效應與時間效應有交互作用;反之，如果隨著觀察時間的變化，不同處理所對應的總體均數之間的差異是個常數(即不隨觀察時間變化而變化)，則稱處理效應與時間效應無交互作用。在例17-1中，統計推斷的結論為:兩組所對應的ALT總體均數之差不隨觀察時間變化而變化，故該例的處理效應與時間效應無交互作用。

(66)在重複測量設計的方差分析中，能否用治療前後觀察值的改變量作為評價指標?

用治療後觀察值作為評價指標是描述受試者在治療後的症狀水平。治療前後的觀察值改變量作為評價指標是描述治療後症狀改變的程度。在許多情況下，兩者均可以作為評價指標，並且治療前後的改變量往往有時更能體現藥物療效功能，但當治療後的受試者處於治癒或恢復到正常狀況時，用治療前後的觀察值改變量作為評價指標就存在一些問題了。例如:評價感冒藥的療效，觀察指標為感冒的各種症狀總分，當感冒治癒時，各種症狀總分為0，這時治療前後的觀察值改變量一治療前的各種症狀總分一0分=治療前的各種症狀總分，因此，治療前後的觀察值改變量作為評價指標就成為治療前的症狀總分評價，這時治療前後的症狀總分改變量不能反映療效的問題了。在例17-1中，幾乎所有的受試者在第36周的ALT測量值都屬於正常範圍，因此ALT觀察值在正常範圍內的波動屬於個體變異，與藥物的療效關係不太大。因此，用治療前後的ALT改變量作為評價指標就不能較好地反映臨床治療效果，如果兩組的治療前的觀察值平均水平是無統計學意義的，則用各個時點的ALT觀察值反映藥物治療能使受試者的ALT達到何種水平和範圍就有較好的臨床意義。

(67)連續型定量變量如何引入回歸模型?

連續型定量變量若直接以定量變量形式引入方程，對於定量變量與logit π呈線性的情況下，可以減少信息損失，減少方程增設啞變量個數，增大檢驗效能，但當該變量與logit π沒有近似線性關係時，反而導致參數估計誤差加大，甚至結果無法解釋。所以，對於這種情況，一般採用離散化的方法，以啞變量形式引入模型。離散化類別的個數一方面要依據專業知識，另一方面要根據樣本量及擬納入方程分析的自變量個數確定。

(68) 如何建立好的回歸模型?

研究者通過統計軟體，採用逐步前進法或後退法，逐個入選或剔除自變量，建立logistic回歸模型。這種作法從統計學意義上無可厚非，但是統計回歸模型的生命力在於解決實際問題，回歸模型必須要「工作」。從應用角度看，完全依賴統計軟體篩選自變量，建立回歸模型的作法有片面性。要將專業經驗與統計學原理、方法相結合，認真篩選進人方程的自變量，以建立好的統計回歸模型。當採用統計學與專業知識結合的方法，篩選進人方程的自變量還不滿意時，可以考慮對常用logistic回歸方程進行必要的修改，如方程中增加變量的二次項或相關自變量的交互項等，使擬合方程更加符合客觀實際。

(69) 如何計算有交互效應時的優勢比?

以只有兩個自變量的logistic方程為例。沒有交互效應的模型(即主效應模型)為logit π=β0+β1X1+β2X2。如果考慮X1, ,X2。間存在一階交互效應，模型表達式為logit π=β0+β1X1+β2X2+β3X1X2，當因素X1增加一個單位，即=X1+1，其他條件不變時的優勢比為。一般要討論不同的X2取值，檢驗β1+β3X2=0的問題。如X2= 0，則OR1=exp(β1)，檢驗H0: β1=0；如X2 =1，則OR1=exp(β1+β3)，檢驗H0: β1+β3=0。

因此，有交互效應時X1的優勢比不是一個常數，它還取決於另一因素的狀況(自變量X2取值)。

讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾

相關焦點

醫學寫作中數據的統計方法及結果常見問題及分析

總結|臨床研究常見統計方法與統計問題

美國生物統計專業解析

醫學論文結構式英文摘要的寫作方法

...大學——醫學統計預測模型、數理統計醫學應用模型和生物數學模型

醫學論文稿件中常見的統計描述問題

【商醫科教論壇】醫學論文描述統計方法和研究結果方法

生物醫學文獻中最廣泛使用的縮寫詞是它

指南|醫學統計方法如何選擇

醫學論文標題及摘要英譯中的問題解析

俞章盛: 為中國生物統計推開一扇窗

生物統計學-數理統計對生命的詮釋

北京生物醫學統計與數據管理研究會2019年年會暨學術研討會第一輪通知

醫學論文寫作中表格的應用要求及常見問題

熱烈祝賀《轉化醫學雜誌》進入中國科技核心期刊(中國科技論文統計...

SPSS醫學統計高能方法:單因素方差分析(One Way ANOVA)——【杏花開醫學統計】

這個縮寫在生物醫學文獻中使用最多

納米技術在生物醫學中的研究進展

《中華醫學統計百科全書. 描述性統計分冊》

醫學論文中統計圖的設計與繪製要求及常見錯誤

讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾

相關焦點

醫學寫作中數據的統計方法及結果常見問題及分析

總結|臨床研究常見統計方法與統計問題

美國生物統計專業解析

醫學論文結構式英文摘要的寫作方法

...大學——醫學統計預測模型、數理統計醫學應用模型和生物數學模型

醫學論文稿件中常見的統計描述問題

【商醫科教論壇】醫學論文描述統計方法和研究結果方法

生物醫學文獻中最廣泛使用的縮寫詞是它

指南|醫學統計方法如何選擇

醫學論文標題及摘要英譯中的問題解析

俞章盛: 為中國生物統計 推開一扇窗

生物統計學-數理統計對生命的詮釋

北京生物醫學統計與數據管理研究會2019年年會暨學術研討會 第一輪通知

醫學論文寫作中表格的應用要求及常見問題

熱烈祝賀《轉化醫學雜誌》進入中國科技核心期刊(中國科技論文統計...

SPSS醫學統計高能方法:單因素方差分析(One Way ANOVA)——【杏花開醫學統計】

這個縮寫在生物醫學文獻中使用最多

納米技術在生物醫學中的研究進展

《中華醫學統計百科全書. 描述性統計分冊》

醫學論文中統計圖的設計與繪製要求及常見錯誤

俞章盛: 為中國生物統計推開一扇窗

北京生物醫學統計與數據管理研究會2019年年會暨學術研討會第一輪通知