避免論文中常見的統計錯誤,不給審稿人留下把柄

2020-12-13 騰訊網

　　轉載請註明：解螺旋·臨床醫生科研成長平臺

　　又到了寫畢業論文的季節了，有些常見的錯誤你是一定要避免的！在眾多可能犯的錯誤中，統計錯誤是常常被忽視但往往也是最致命的，如果審稿人是各中高手，更是無所遁形。因此，在本文中將重點討論SD與SE，以及重複測量（Replicates）與重複試驗（Repeats）的區別，並介紹基本的實驗設計原則等相關事宜。

　　SD與SE的區別

　　mean±SEM？ mean±SD？ mean±SE？眼花繚亂的誤差線表示方法，它們有什麼區別呢？究竟在寫論文的時候你該用哪一個呢？字面意思來看，SE與SEM（standard error of the mean）是一樣的，是標準誤；而SD（standard deviation）為標準差。有一種說法是多次重複試驗的結果用SE以減少測量誤差，而用SD來展示一次實驗的重複測量數據。那麼這種說法是正確的理解嗎？為此，我查閱了相關文獻（非某某文庫或知道哦~），一起來看看權威的說法吧。

　　SD值即標準差是一種變異性的量度。當我們計算某一樣本的SD值時，實際上是在用SD值估計樣本所來自總體的變異度。通常認為對於符合正態分布的數據而言，約有95%的觀測值會位於mean±SD之間，而其餘的5%的觀測值會均勻的分布在mean±SD區間之外。而實際上，SD值作為變異性的量度與數據分布的類型無關。對於任何分布的數據而言，都會有約95%的觀測值落於mean±SD之間；儘管其餘的5%的觀測值可能會集中於某一端。

　　當我們計算樣本的平均值時，通常我們對該特定樣本的平均值並不感興趣；而是對樣本所來自總體的個體的平均值感興趣。窮盡總體的測量通常難以實現，因此我們會通過從抽取的樣本中獲取信息並據此歸納出總體的平均值得出普適性的結論。但是，樣本的平均值會隨抽取樣本的不同而產生波動，我們稱之為「平均值的樣本分布」。為此，我們可以用平均值的標準誤SE來估計樣本的平均值與「平均值的樣本分布」的標準差之間的差異。SE也是一種SD，但是如此說起來繞口，理解起來麻煩；實際上我們可以把SE理解為樣本平均值的可信度的一種量度。

　　SE值的大小取決於SD值和樣本量的大小。因此，樣本量越大，SE值越小；而SD值不會傾向於隨樣本量的大小而變化。因此，如果我們想展示某一測量的數據分布範圍，我們會選擇SD值；而如果我們想知道測量平均值的可信程度，我們可以用平均值的標準誤SE來評價。故而，在計算置信區間時，SE值是最常用的；在計算P值時也通常會用SE值。

　　因此，選擇SD或SE與重複實驗次數無關，而是取決於你想展示數據的分布範圍還是估計平均值的可信度。此外，科學實驗的數據均應該來自於多個獨立重複的樣本（重複實驗），重複測量的數據只能用於減少測量誤差，而不應該直接展示結果中，這一點我會在下一章中詳細說明。

　　最後要說明的一點是，不是所有的數據都適合用平均值+誤差線來表示。假如我們每組實驗只有3的獨立樣本（n=3），直接把這三個點用散點圖展示出來可能更好。實際上，這已經是一種趨勢，不少雜誌開始鼓勵直接用散點圖直接展示原始數據點。

　　重複測量與重複試驗

　　科學實驗本質上就是一種抽樣調查，你的實驗樣本是否能反應總體的真實情況決定了你的實驗結論的可信程度。為了更好的說明這一類錯誤，下面先從一個實驗案例說起（大家快點來找茬~）。

　　假設，我們想知道Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中是否是必需的。為此，我們分別從一隻野生型小鼠（WT）和一隻Bdl 基因敲除小鼠（Bdl–/–）中分離骨髓細胞；然後，每種來源的細胞各種20個小皿，再分為兩組（每小組10皿），分別給於HH-CSF和溶劑對照處理；最終，通過計數得到了下面的實驗數據。

　　然後接下來就是作圖了。假如我們只用每組的1號皿作圖（見下圖A），看起來Bdl基因還是有很大影響的；但是一個數據並不能給出是否具有統計差異等信息。為此，我們用每組前3皿的數據作圖（見下圖B），這樣便可以給出標準誤以及P值等統計信息（看起來舒服多了~）。但是為了有顯著差異（手動滑稽），我們用所有的數據作圖（下圖C），這結果如你所願！遺憾的是，兩個柱子的高度差別並不大！於是，我們機智的調整了下y軸的範圍，然後就得到了下圖D。這時你發現，一個高水平文章裡才有的圖就躍然紙上了（此圖只應NCS裡有，灌水雜誌何處尋）！

　　那麼，這個結果可信嗎？你有發現問題嗎？如果沒有，說明你很可能也犯了類似的錯誤！

　　首先，科學實驗的數據應該來自多個獨立的樣本，如果n = 1 那就不是科學。本例中，WT+HH-CSF 組和Bdl–/–+HH-CSF組雖然各有10個小皿，但是這些細胞只來源於兩隻小鼠；因此，n實際上等於1。

　　其次，單一變量原則是科學實驗的精髓。本例中我們想考察Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中的作用，理論上在實驗設計時應該保證除Bdl 基因外其他變量相同。然而，考慮到個體的差異，不確定因素太多。因此，每組只取一隻小鼠，得出的結果很可能是小鼠個體差異造成的。

　　然後，統計推斷的結論只能應用於實驗樣本所來自的總體。本例中，我們多次重複測量了一份骨髓細胞懸液對HH-CSF刺激的響應，得出的結論只能是HH-CSF對這一份骨髓細胞懸液的影響；而不能擴展到HH-CSF對所有小鼠骨髓細胞的影響。

　　最後，重複測量數據雖然不能用於支持統計推斷，但是在實驗質量控制中發揮重要作用。本例中，多次重複測量一份骨髓細胞懸液對HH-CSF刺激的響應，所得到數據雖不能直接用於得出Bdl 基因在HH-CSF刺激骨髓細胞增殖的過程中是否具有一定的作用；但是這樣的重複測量可以有效地避免因實驗處理過程中各種不慎操作所帶來的錯誤。

　　因此，重複試驗（Repeats）的樣本應該直接來源於你所研究對象的總體以獲取獨立的實驗數據，或者多次獨立的重複做你所有的實驗。因此，在本例中實驗設計應該如下圖B，同一基因型選多隻小鼠分別取骨髓細胞進行試驗；而不能如下圖A一樣，每種基因型只取一隻小鼠。

　　最後，需要重點強調的兩點是：重複測量（Replicates）並不局限於最後一步用儀器反覆測量了幾次（這樣僅僅考慮到了儀器的可靠性）；重複測量（Replicates）與重複試驗（Repeats）是相對的概念，主要取決於你想得出的結論。

　　例如在用流式抗體檢測細胞表面marker時，假如你想知道藥物處理後對某細胞系表面某marker表達的影響，你就應該每個處理至少種3個復孔（n ≥ 3），而不能把同一個處理孔的細胞分成3份分別進行染色（儘管你可以這樣做以減少實驗誤差，但這樣得到的數據只能算作重複測量）；假如你只是想知道流式抗體染色時間對你所用某細胞下的實驗有無影響，那就要把該細胞分成多份分別進行流式抗體染色（一個皿的細胞即可），並保證每個染色時間處理下至少有3個樣品。

　　總之，你的重複實驗的樣本一定要能反應你所得出的實驗結論的總體的情況，否則只能算是重複測量。

　　所以，在做QPCR的時候，每個處理你應該種幾個復孔呢？還在用QPCR的檢測復孔來展示你的實驗結果嗎？又如，在MTT實驗中每個濃度處理組有6個復孔，這屬於重複測量還是重複實驗呢？如有任何疑問或紕漏之處歡迎留言討論和批評指正。

相關焦點

論文寫作或審稿時的十種常見統計錯誤

但在本文中，我們僅討論科學文獻中常見的十種統計錯誤。儘管許多研究者強調了透明度和科研倫理的重要性，一些顯而易見的統計學錯誤仍然在論文中出現，這些統計錯誤可能讓作者們推斷出數據並不支持的結論。重要的是，儘管這些論文是錯誤的，人們也常會信以為真。我們認為，防止發表錯誤結果的最恰當時機是在期刊的同行評審過程，或者是在預印本出版後的線上討論。
寫作及審稿中常見的十個統計錯誤

前言　　本文列出了文獻中出現的一些最常見的統計錯誤。這些錯誤的根源在於無效的實驗設計、不恰當的分析或有缺陷的推理。作者對如何識別和解決這些錯誤為研究者和審稿人提供了建議。每條錯誤之後還有Further reading提供之前關於此錯誤的討論。
醫學論文中統計圖的設計與繪製要求及常見錯誤

在醫學論文中，統計圖作為形象化語言，大多能形象、直觀、簡明地表達變量與變量之間的關係，展示某一區域內不同量的分布、某一變量的發展趨勢，產生直觀的效果，既可減少繁瑣的文字敘述，節省版面，也更能說明問題，同時增加讀者閱讀興趣，便於理解和記憶。
國際期刊審稿人解讀:如何構建一篇優秀的SCI論文?

優秀的論文是有價值的。作為該領域專家，審稿人應該能發現論文中的價值（如果有的話）。然而，如果論文中的出彩之處沒有得到好的表達，會削弱論文的價值。邏輯結構是良好表達的第一要素。即使論文是按標準結構寫的，也可能存在重大問題。（標準結構簡化了論文缺陷的識別過程。）以下是在上述各部分中遇到的常見錯誤。閱讀整篇論文前後的摘要。是否真的概括了全文？是否包括結論以及對原問題的陳述？同樣的內容是否還出現在了論文其他地方？
醫學論文中表格使用的常見錯誤分析

醫學論文中的統計表格，是對統計數據和統計結果的一種簡潔、明了、有效的表達形式，是一種特殊的傳遞語言信息的方法，是文章中描述資料的重要工具和特定表達形式。表格能讓讀者清楚地看到變量的變化趨勢，比文字敘述更直觀、更有條理、更易懂。
sci論文寫作中常犯的6個語言錯誤

一篇sci論文可能只要解決了語言上的不足，就可以被錄用見刊，足見英語語言對我國作者發表sci論文帶來的不利影響。關於sci論文寫作中常犯的6個語言錯誤，闡述如下。sci論文寫作中常犯的6個語言錯誤1、存在簡單的漢英互譯現象我國科研工作者或畢業生發表
論文審稿人意見有分歧怎麼辦

論文發表過程中，往往需要多個審稿人覆審，覆審意見可能是統一的，也可能是有分歧的。當意見有分歧的時候，作者不要緊張和著急，雖然這可能會導致論文被拒稿，但不代表沒有解決方法。那麼，論文審稿人意見有分歧怎麼辦？論文發表，通常要過初審、覆審和終審。
千萬別再用Chinglish寫論文了!審稿人看了,尷尬癌要犯...

儘管論文產出，但難逃拒稿難關。尤其是對中國學者來說，SCI論文寫作有著更多的困惑與壓力。因為自身母語環境為漢語，受語言環境的表達方式影響，中國學者在寫SCI論文時總是會不經意間帶入Chinglish（中式英語）表達，導致文章出現大量語法錯誤，並且常因此從審稿人那碰了一鼻子灰。什麼是中式英語寫作？
ICML 審稿人怒了,不要論文沒寫完就投稿!

這位審稿人在reddit上講述了他的內心獨白，表示他審閱的論文投稿中超過一半沒有完稿，而他們審稿人卻要花費6-7個小時甚至10個小時以上來審閱一篇這樣的稿件，這對審稿人未免也太不尊重了！在提交論文之前，請花點時間請你的同行或者導師提前審閱一遍論文。如果他們發現了任何錯誤，我向你保證，審稿人也同樣能發現這些錯誤，然後給你一個傷人、令人沮喪的評論反饋。我發現我們正處於一個巨大的炒作泡沫中，我們都想趕上這趟熱門的火車，然而當我審閱到這些未完稿的論文時，我感受到了來自作者的不尊重。
淺析科技論文摘要中的常見問題

然而，編譯在工作實踐中發現，很多作者由於對論文摘要的寫作認識不足，以至於或多或少存在著這樣那樣的問題，以下就科技論文寫作中摘要的常見問題進行辨析。　　一、摘要不具有獨立性和自明性。獨立性和自明性是指摘要應是一篇獨立的短文，讀者不閱讀全文，就能獲得必要的信息。
sci論文有錯誤會撤稿嗎

sci論文有錯誤會撤稿嗎？這個要看錯誤是什麼錯誤了。若是很嚴重的錯誤，撤稿往往無法避免。若是小錯誤或者不是很嚴重的錯誤，作者及時寫一個勘誤就可以了，通常不會撤稿。向sci期刊投稿的文章，很多都有錯誤，哪怕是大牛撰寫的文章也很難避免，可見sci論文有錯誤是一個常見現象，但並非sci論文有錯誤就一定會撤稿。作為論文作者，在投稿前，一定要仔細核查，能避免的要避免。若是沒有發現，投稿後才發現，就要及時的彌補，而彌補的方法就是寫勘誤。
科研SCI論文圖片常見問題和錯誤匯總

SCI論文圖片的編輯是一門簡單，卻不容易的學問。
醫學寫作中數據的統計方法及結果常見問題及分析

在醫學科研寫作中，實驗設計的方法直接決定了數據採取何種統計學方法，因為每種統計方法都要求數據滿足一定的前提和假定，所以論文在實驗設計的時候，就要考慮到以後將採取哪種數據統計方法更可靠。醫學統計方法的錯誤千差萬別，其中最主要的就是統計方法和實驗設計不符，造成數據統計結果不可靠。
科技論文英文摘要中的常見錯誤分析

為此，藍譯編譯以下就科技論文英文摘要中的常見錯誤作一大致歸納，供英文摘要撰寫者或翻譯者參考，以期避免或減少錯誤，提高質量。一、專業知識欠缺。大多數英文摘要是中文摘要的英譯，直接用英文撰寫者為數甚少。由於種種原因，某些論文的作者英語文水平有限，往往請英文工作者捉刀代筆。豈知隔行如隔山，懂英文者對論文涉及的專業知識往往不甚了解，若不虛心請教內行，弄清中文原意，其結果只能是不盡人意。
論文寫作的八個重要細節,審稿人最喜歡兩個極端……

根據本人的一些投稿和審稿經驗，英語水平在整個論文寫作中所佔的比重最多佔到三成，剩下的七成則是一些極易被忽略的格式或形式上的細節，
論文寫作總卡住?審稿人結合多年經驗分享寫作關鍵詞

來源：募格課堂作者：弗卡思相信很多同學都有這樣的經歷，在你繁重且焦慮的科研進程中，總是有一些幹擾因素，會打亂本就緩慢的節奏。眾所周知，幹擾因素往往具有兩面性，如何正確的對待這種幹擾，從而激發出潛在的有益信息，將其更好地應用到科研中去，是一種非常積極的態度。
SCI錄用的最後一步——答覆審稿人的策略和答覆信的寫作技巧

如果不正確的話，也大可不必在回覆中冷嘲熱諷，心平氣和的說明白就是了。大家都是青年人，血氣方剛，被人拍了當然不爽，被人錯拍了就更不爽了。尤其是一些名門正派裡的弟子，看到一審結果是major而不是minor本來就已經很不爽了，難得抓住審稿人的尾巴，恨不得拖出來打死。
醫學科研論文中外文參考文獻常見著錄錯誤

隨著科研水平的不斷發展，中外學術交流日益增多，醫學科研論文中引用的外文參考文獻也越來越多。雖然GB/T 7714-2015對參考文獻的著錄格式有明確要求，但是在醫學科研論文中仍存在較多外文參考文獻錯誤著錄的情況，如外文參考文獻主要責任者姓名著錄錯誤、外文參考文獻題名著錄錯誤、外文參考文獻刊名著錄錯誤等。
審稿人說,你的數據是偏態分布的,統計方法不對?怎麼辦?

，論文雜誌單位返修時，審稿人說我的數據的偏態的，怎麼辦呀？一般是先做一下正態性檢驗，若正態性檢驗P<0.05，則可以按照審稿人意見來修改。他們最大，別惹惱了。這是數據分析階段要考慮的問題時，正態性檢驗P<0.05時，一定要採用秩和嗎？不盡然。對於成組設計的t檢驗，一般存在著兩種觀念。第一，各組樣本均來自於正態分布的總體。
英文論文寫作常見問題?

總是不寫冠詞這個是我犯得最多的錯誤，a、an、the總是會被我省略，畢竟科技論文裡有很多專有名詞等是不用加冠詞的，這麼寫順手了就會忘記加。因為漢語習慣的問題，我每次檢查的時候也不會覺得彆扭，但是讓一些審稿人讀起來可能真的難受。2.

避免論文中常見的統計錯誤,不給審稿人留下把柄

相關焦點

論文寫作或審稿時的十種常見統計錯誤

寫作及審稿中常見的十個統計錯誤

醫學論文中統計圖的設計與繪製要求及常見錯誤

國際期刊審稿人解讀:如何構建一篇優秀的SCI論文?

醫學論文中表格使用的常見錯誤分析

sci論文寫作中常犯的6個語言錯誤

論文審稿人意見有分歧怎麼辦

千萬別再用Chinglish寫論文了!審稿人看了,尷尬癌要犯...

ICML 審稿人怒了,不要論文沒寫完就投稿!

淺析科技論文摘要中的常見問題

sci論文有錯誤會撤稿嗎

科研SCI論文圖片常見問題和錯誤匯總

醫學寫作中數據的統計方法及結果常見問題及分析

科技論文英文摘要中的常見錯誤分析

論文寫作的八個重要細節,審稿人最喜歡兩個極端……

論文寫作總卡住?審稿人結合多年經驗分享寫作關鍵詞

SCI錄用的最後一步——答覆審稿人的策略和答覆信的寫作技巧

醫學科研論文中外文參考文獻常見著錄錯誤

審稿人說,你的數據是偏態分布的,統計方法不對?怎麼辦?

英文論文寫作常見問題?