轉載請註明:解螺旋·臨床醫生科研成長平臺
又到了寫畢業論文的季節了,有些常見的錯誤你是一定要避免的!在眾多可能犯的錯誤中,統計錯誤是常常被忽視但往往也是最致命的,如果審稿人是各中高手,更是無所遁形。因此,在本文中將重點討論SD與SE,以及重複測量(Replicates)與重複試驗(Repeats)的區別,並介紹基本的實驗設計原則等相關事宜。
SD與SE的區別
mean±SEM? mean±SD? mean±SE?眼花繚亂的誤差線表示方法,它們有什麼區別呢?究竟在寫論文的時候你該用哪一個呢?字面意思來看,SE與SEM(standard error of the mean)是一樣的,是標準誤;而SD(standard deviation)為標準差。有一種說法是多次重複試驗的結果用SE以減少測量誤差,而用SD來展示一次實驗的重複測量數據。那麼這種說法是正確的理解嗎?為此,我查閱了相關文獻(非某某文庫或知道哦~),一起來看看權威的說法吧。
SD值即標準差是一種變異性的量度。當我們計算某一樣本的SD值時,實際上是在用SD值估計樣本所來自總體的變異度。通常認為對於符合正態分布的數據而言,約有95%的觀測值會位於mean±SD之間,而其餘的5%的觀測值會均勻的分布在mean±SD區間之外。而實際上,SD值作為變異性的量度與數據分布的類型無關。對於任何分布的數據而言,都會有約95%的觀測值落於mean±SD之間;儘管其餘的5%的觀測值可能會集中於某一端。
當我們計算樣本的平均值時,通常我們對該特定樣本的平均值並不感興趣;而是對樣本所來自總體的個體的平均值感興趣。窮盡總體的測量通常難以實現,因此我們會通過從抽取的樣本中獲取信息並據此歸納出總體的平均值得出普適性的結論。但是,樣本的平均值會隨抽取樣本的不同而產生波動,我們稱之為「平均值的樣本分布」。為此,我們可以用平均值的標準誤SE來估計樣本的平均值與「平均值的樣本分布」的標準差之間的差異。SE也是一種SD,但是如此說起來繞口,理解起來麻煩;實際上我們可以把SE理解為樣本平均值的可信度的一種量度。
SE值的大小取決於SD值和樣本量的大小。因此,樣本量越大,SE值越小;而SD值不會傾向於隨樣本量的大小而變化。因此,如果我們想展示某一測量的數據分布範圍,我們會選擇SD值;而如果我們想知道測量平均值的可信程度,我們可以用平均值的標準誤SE來評價。故而,在計算置信區間時,SE值是最常用的;在計算P值時也通常會用SE值。
因此,選擇SD或SE與重複實驗次數無關,而是取決於你想展示數據的分布範圍還是估計平均值的可信度。此外,科學實驗的數據均應該來自於多個獨立重複的樣本(重複實驗),重複測量的數據只能用於減少測量誤差,而不應該直接展示結果中,這一點我會在下一章中詳細說明。
最後要說明的一點是,不是所有的數據都適合用平均值+誤差線來表示。假如我們每組實驗只有3的獨立樣本(n=3),直接把這三個點用散點圖展示出來可能更好。實際上,這已經是一種趨勢,不少雜誌開始鼓勵直接用散點圖直接展示原始數據點。
重複測量與重複試驗
科學實驗本質上就是一種抽樣調查,你的實驗樣本是否能反應總體的真實情況決定了你的實驗結論的可信程度。為了更好的說明這一類錯誤,下面先從一個實驗案例說起(大家快點來找茬~)。
假設,我們想知道Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中是否是必需的。為此,我們分別從一隻野生型小鼠(WT)和一隻Bdl 基因敲除小鼠(Bdl–/–)中分離骨髓細胞;然後,每種來源的細胞各種20個小皿,再分為兩組( 每小組10皿),分別給於HH-CSF和溶劑對照處理;最終,通過計數得到了下面的實驗數據。
然後接下來就是作圖了。假如我們只用每組的1號皿作圖(見下圖A),看起來Bdl基因還是有很大影響的;但是一個數據並不能給出是否具有統計差異等信息。為此,我們用每組前3皿的數據作圖(見下圖B),這樣便可以給出標準誤以及P值等統計信息(看起來舒服多了~)。但是為了有顯著差異(手動滑稽),我們用所有的數據作圖(下圖C),這結果如你所願!遺憾的是,兩個柱子的高度差別並不大!於是,我們機智的調整了下y軸的範圍,然後就得到了下圖D。這時你發現,一個高水平文章裡才有的圖就躍然紙上了(此圖只應NCS裡有,灌水雜誌何處尋)!
那麼,這個結果可信嗎?你有發現問題嗎?如果沒有,說明你很可能也犯了類似的錯誤!
首先,科學實驗的數據應該來自多個獨立的樣本,如果n = 1 那就不是科學。本例中,WT+HH-CSF 組和Bdl–/–+HH-CSF組雖然各有10個小皿,但是這些細胞只來源於兩隻小鼠;因此,n實際上等於1。
其次,單一變量原則是科學實驗的精髓。本例中我們想考察Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中的作用,理論上在實驗設計時應該保證除Bdl 基因外其他變量相同。然而,考慮到個體的差異,不確定因素太多。因此,每組只取一隻小鼠,得出的結果很可能是小鼠個體差異造成的。
然後,統計推斷的結論只能應用於實驗樣本所來自的總體。本例中,我們多次重複測量了一份骨髓細胞懸液對HH-CSF刺激的響應,得出的結論只能是HH-CSF對這一份骨髓細胞懸液的影響;而不能擴展到HH-CSF對所有小鼠骨髓細胞的影響。
最後,重複測量數據雖然不能用於支持統計推斷,但是在實驗質量控制中發揮重要作用。本例中,多次重複測量一份骨髓細胞懸液對HH-CSF刺激的響應,所得到數據雖不能直接用於得出Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中是否具有一定的作用;但是這樣的重複測量可以有效地避免因實驗處理過程中各種不慎操作所帶來的錯誤。
因此,重複試驗(Repeats)的樣本應該直接來源於你所研究對象的總體以獲取獨立的實驗數據,或者多次獨立的重複做你所有的實驗。因此,在本例中實驗設計應該如下圖B,同一基因型選多隻小鼠分別取骨髓細胞進行試驗;而不能如下圖A一樣,每種基因型只取一隻小鼠。
最後,需要重點強調的兩點是:重複測量(Replicates)並不局限於最後一步用儀器反覆測量了幾次(這樣僅僅考慮到了儀器的可靠性);重複測量(Replicates)與重複試驗(Repeats)是相對的概念,主要取決於你想得出的結論。
例如在用流式抗體檢測細胞表面marker時,假如你想知道藥物處理後對某細胞系表面某marker表達的影響,你就應該每個處理至少種3個復孔(n ≥ 3),而不能把同一個處理孔的細胞分成3份分別進行染色(儘管你可以這樣做以減少實驗誤差,但這樣得到的數據只能算作重複測量);假如你只是想知道流式抗體染色時間對你所用某細胞下的實驗有無影響,那就要把該細胞分成多份分別進行流式抗體染色(一個皿的細胞即可),並保證每個染色時間處理下至少有3個樣品。
總之,你的重複實驗的樣本一定要能反應你所得出的實驗結論的總體的情況,否則只能算是重複測量。
所以,在做QPCR的時候,每個處理你應該種幾個復孔呢?還在用QPCR的檢測復孔來展示你的實驗結果嗎?又如,在MTT實驗中每個濃度處理組有6個復孔,這屬於重複測量還是重複實驗呢?如有任何疑問或紕漏之處歡迎留言討論和批評指正。