研究各階段常犯的10大統計學錯誤 | 科研時間

2020-11-29 醫脈通

作者:楊超


在我們的日常科學研究或者論文撰寫過程中,統計學錯誤普遍存在,近年來也日益受到學者以及大眾媒體的廣泛關注。關於如何改進統計學應用與實踐的爭論,目前主要集中在統計推斷方法的選擇,尤其是P值和顯著性檢驗上。

 

2020年6月,PM&R雜誌發表了題為「Ten Common Statistical Errors from All Phases of Research, and Their Fixes」的文章,作者列舉了研究四個階段(研究設計→數據整理與清洗→數據分析→結果報告)常犯的10個統計學錯誤案例,並給出了可以幫助研究人員避免這些錯誤的潛在解決方案。讓我們來一起看看吧!


研究設計(Study Design)階段


1.研究目的是為了證明等效性或非劣效性,但研究未進行相應設計

舉例:30名運動員被隨機分為兩組:生酮飲食組和習慣性飲食組,為期4周。研究目的是為證明生酮飲食與正常飲食相比,不會引起炎症反應升高。研究者直接比較了兩組患者4周的脂聯素(炎症標誌物)水平,差異無統計學意義(P=0.50),於是得出結論:4周的生酮飲食不會增加炎症反應。


解決辦法:研究者應把這項研究設計成一個非劣效性試驗,目的是為證明一種幹預措施不差於另一種幹預措施。因此,研究者應事先設定一個非劣效性界值(non-inferiority margin),比如脂聯素增加0.5mg/L,同時樣本量計算也應包含這個非劣效性界值。

 


2. 未進行樣本量計算,導致結果估計不精確、可信區間過寬


舉例:某研究旨在評估一種新型卒中患者平衡測試的評分者間的可靠性。兩名評分者分別測量了10名卒中患者,研究者計算了組內相關係數(intra-class correlation coefficient,ICC)和95%可信區間,結果為0.76(0.23-0.93)。問題在於,對ICC的估計過於不精確,導致無法判斷結果的可靠性。


解決辦法:研究者應該事先進行樣本量計算。對於評價一致性或可靠性的研究,樣本量的計算應基於實現較高的ICC精度或者將ICC與非零值(比如0.50)進行比較。

 

3. 研究使用了既往未經驗證的測量量表


舉例:某研究旨在探討網球比賽對主觀精神疲勞的影響,隨訪了12名運動員整個賽季,並在每場比賽前後收集精神疲勞評分。研究者要求運動員在自製的量表上(0-100分)報告他們的精神疲勞情況。研究發現,從賽前到賽後精神狀況都有明顯的下降。但問題是,這種自製量表的有效性和可靠性均未經驗證,因此觀察到的差異有可能是因為測量誤差導致的。


解決辦法:研究者應該使用一個先前驗證過的主觀精神疲勞的測量方法。該方法應具有已知的信度和效度,而且最好在類似研究人群中進行過驗證。


數據整理與清洗(Data Wrangling and Cleaning)階段


4. 數據處理中的錯誤操作導致了二分類變量編碼的1/0反轉


舉例:研究人員調查了700名跑步者,以了解他們的防曬習慣。初步分析發現,女性、年齡較大和有皮膚癌病史的跑步者不太可能經常使用防曬霜,這些結果與預期相反。在進一步檢查後發現了一個編碼錯誤:防曬是按照1(經常使用)到5(從不使用)的維度來編碼的,然而當數據在Excel中轉換為二分類變量時,4和5的值被錯誤地編碼為經常使用防曬霜,而1到3的值被重新編碼為表示缺乏防曬措施。


解決辦法:建議在統計分析軟體(如SAS、STATA、R)中進行數據清理,以便所有數據更改記錄都可以保存在代碼中。在運行統計模型之前,應檢查所有變量的準確性和一致性。

 

5. 數據輸入錯誤導致了虛假關聯


舉例:研究人員前瞻性地收集了150名美國大學長跑運動員的數據,包括睡眠習慣和1英裡跑步時間。初步分析發現,較長時間的平均夜間睡眠與更快的1英裡跑步時間存在中度相關性(r=-0.55,P<0.01)。


但是,在繪製數據散點圖時發現了一個數據輸入錯誤:1名運動員報告了他的跑步時間(7分30秒)與相當短的睡眠時長(每晚5小時)。在移除這個數據點之後,睡眠時長和跑步時間的相關性變為陰性(r=-0.15,P=0.46),最終原因是這名運動員的數據在資料庫中輸入有誤導致的。


解決辦法:在進行正式分析之前,研究者應該核查數據並儘可能繪製散點圖,以識別異常值和數據輸入的錯誤。輸入有誤的數據應及時更正,異常值應保留在數據集中,但是其影響應該通過敏感性分析來探究。


數據分析(Data Analysis)階段


6. 未檢查統計模型的相關性假設,導致錯誤的推斷


舉例:有學生分析了健康對照組和輕度腦外傷患者在四種不同條件下的頭部旋轉角度數據。使用重複測量方差分析發現,研究條件的主效應差異具有統計學意義(P=0.032)。然而,在查看原始數據時發現其中兩種研究條件下的旋轉角度方差是其他條件的3倍,而且也非正態分布。


因此,該數據違背了方差分析的兩個假設:方差齊性(本例中更具體地說是球形檢驗)和殘差的正態性。違反球形檢驗的假設可能會導致一類錯誤率增加。當對本例中數據進行非參數檢驗時,得到的P值要高得多(P=0.24)。


解決辦法:研究者在運行任何正式的統計模型和檢驗之前,應充分了解數據集中的變量情況,為所有相關變量進行描述性統計、生成散點圖和直方圖等。研究者還應該檢驗數據是否滿足統計模型或檢驗的假設條件。

 

7. 應用了錯誤的統計方法,導致了潛在的誤導性結論


舉例:某研究旨在了解鈣攝入量對軟組織損傷後運動恢復的影響,隨訪了62名澳大利亞業餘足球運動員兩個賽季,記錄了他們的鈣攝入量和受傷情況。研究者採用線性回歸模型,對於未受傷的運動員(n=50),結局變量編碼為0;對於受傷的運動員(n=12),結局變量為缺席比賽的周數。


基於這個模型,研究者得出結論:鈣攝入與更快的恢復時間有關,每攝入100 mg鈣,平均減少0.2周的恢復期(P=0.03)。本研究的問題在於「重返賽場時間」具有一個雙峰分布,其中許多運動員都有「0」值。線性回歸模型擬合了兩個峰之間的直線,因此觀察到的關聯更可能反映出預測因素對於發病率、而不是損傷恢復時間的影響。此外,線性回歸模型的應用假設也不被滿足。


解決辦法:本研究建議僅在受傷的運動員中進行分析,同時也可以考慮使用零膨脹模型。

 

8. 數據分析忽略了重要的相關性來源,導致P值被嚴重低估


舉例:研究者進行了一項旨在預防運動性傷害的整群隨機對照試驗,隨機抽取了5所高中進行幹預,5所高中隨機分為對照組。其中,幹預組教練參加了時長1小時的教育研討會,學習可以減少傷害的特定熱身方案,而對照組教練收到一封教育性郵件。


在接下來的一年裡,研究人員參加了球隊的比賽,並記錄了熱身活動的次數。他們發現,幹預組教練在54/200(27%)的比賽中實施了這一程序,然而對照組教練只在30/200(15%)的比賽進行了熱身訓練。


通過卡方檢驗,研究者得出結論:兩組差異非常顯著,P<0.005。本研究問題在於,本研究的400個觀測對象其實是非獨立的,而且存在兩種相關性的來源:1)每個教練在多場比賽中被反覆測量;2)來自相同高中的教練也存在相關性。因此,本研究可能會大大增加P值,因為有效的樣本量遠遠小於400。


解決辦法:在分析具有相關性的觀測值時,數據中的一些相關性來源需進行調整或校正,比如可以通過改變觀察單位(從比賽到教練)或利用能夠處理相關觀測值的統計學模型。


結果報告(Reporting)階段


9. 摘要突出強調了組內比較結果,但忽略了組間比較結果,掩蓋了組間差異不具有統計學意義的事實


舉例:研究者進行了一項隨機對照試驗,評估魚油改善卒中患者的認知功能情況。魚油組(n=20)患者的認知功能平均改善了3分,組內變化差異在α=0.05水平上具有統計學意義(P=0.043);安慰劑組(n=20)的認知功能改善了2.1分,組內變化差異無統計學意義(P=0.087);平均組間差異(0.9分)無統計學意義(P=0.47)。


然而,研究者在摘要中寫道:魚油組有顯著改善(P<0.05),而安慰劑組沒有(P>0.05)。因此,魚油可能有助於改善認知功能。這是一個具有高度誤導性的結果陳述。


解決辦法:在報告隨機對照試驗的結果時,摘要和主要結論應主要呈現組間比較的結果。

 

10. 來自單一數據集的高度相關結果分別在多篇不同文章中進行報告


舉例:研究者調查了1000名老年人,以了解他們當前的關節疼痛與鍛鍊習慣的關係。研究者分別建立了三個Logistic回歸模型,探討早期進行遊泳、跑步和球類運動對老年關節疼痛的影響。


該研究發現,遊泳可以降低關節疼痛的風險,跑步可以增加風險,而球類運動沒有任何效果。這些結果分別發表在三篇獨立的論文中,作者也沒有告知讀者其他研究的存在。


本研究問題在於,檢驗三項運動會增加總體的I型錯誤率;分開進行分析的話排除了調整潛在相關性的可能,例如對同時參與不同運動進行調整;讀者也很難發現不同模型中的細小差異。


解決辦法:研究者應仔細考慮來自同一數據集的多個分析,是否值得在多篇論文中分別進行發表。如果對同一樣本的相關結果採用相同的統計方法,那麼寫成一篇完整的論文可能更合適。

 

總之,從研究設計到最終結果報告,在研究的各個階段都會出現統計學上的錯誤。上述提到的十大錯誤,其實大多與誤用P值或統計學檢驗是無關的。因此,建議廣大研究者在今後的研究過程中加強統計學思維和素養的提升。


參考文獻:

[1] David N Borg, Keith R Lohse, Kristin L Sainani. Ten Common Statistical Errors from All Phases of Research, and Their Fixes. PM R, 2020, 12(6): 610-614.

[2] 一文搞懂:非劣效性檢驗是個啥?有何價值?


(本網站所有內容,凡註明來源為「醫脈通」,版權均歸醫脈通所有,未經授權,任何媒體、網站或個人不得轉載,否則將追究法律責任,授權轉載時須註明「來源:醫脈通」。本網註明來源為其他媒體的內容為轉載,轉載僅作觀點分享,版權歸原作者所有,如有侵犯版權,請及時聯繫我們。)

相關焦點

  • 警惕:研究中最常犯的10大統計學錯誤
    在我們的日常科學研究或者論文撰寫過程中,統計學錯誤普遍存在,近年來也日益受到學者以及大眾媒體的廣泛關注。關於如何改進統計學應用與實踐的爭論,目前主要集中在統計推斷方法的選擇,尤其是P值和顯著性檢驗上。
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    實際上完全沒有關係的變量,在利用樣本數據進行計算時也可能得到一個較大的相關係數值(尤其是時間序列數值)。當樣本數較少,相關係數就很大。時間序列數據會自發呈現完全共線性問題,所以我們用自回歸分析方法;6. 什麼樣的模型才是一個好模型?
  • 醫學科研論文中常見的統計學問題
    統計學在醫學科研工作中發揮著重要的作用,統計學方法種類繁多,各自的適用範圍以及所需的前提條件又不盡相同,容易發生誤用,導致論文質量不高,甚至結論錯誤而引起誤導。為能有效促進統計學方法的正確使用,保證科研的科學性、可靠性,提高醫學科研論文質量,賽恩斯編譯對醫學科研論文中常見的統計學問題進行梳理和總結如下:一、實驗組與對照組沒有可比性。實驗組與對照組必須遵循均衡化的原則,即實驗組與對照組除處理因素不同外,其他可控制的非處理因素要儘可能保持一致,從而儘量排除非處理因素對結果的影響。各組間均衡程度越高,可比性越強。
  • 大數據下的「應用統計學」與「經濟統計學」,如何抉擇?
    比如一家你常去的餐廳想要推出新品,需要你給出滿意度評分。如果你對這些社會性質的調查比較排斥,那你一定接受過官方的人口普查或經濟普查。這些調查、問卷經過篩選和處理之後,將會變成一系列數字和圖表,這就是統計過程,而統計對我們的工作、生活乃至政府決策都產生著直接的影響。本文,將對與統計學有關的「應用統計學」與「經濟統計學」兩個專業進行對比分析。
  • 盤點人們最常犯的10個英語語法錯誤
    Using data from millions of its subscribers, Microsoft recently rounded up a list of the top 10 grammar mistakes in the English language.
  • 撰寫醫學論文這些統計學問題你要注意
    眾所周知,統計學主要是一門以統計學原理及方法為基礎,對科研數據進行採集,整理及分析的應用科學。在實際工作中,統計學問題已成為評價醫學論文質量高低的重要指標之一。統計學方法在應用過程中的錯誤與否會在一定程度上影響醫學科研結論的科學性、可靠性以及嚴謹性。
  • 統計學專業介紹,專業說
    因此,統計學專業學生需要具備良好的文理綜合素質,需要良好的動手能力以及一定的組織協調能力。培養方案本科生階段,課程學習的重點在於打下堅實的數學基礎,培養創造性的科研創新能力,以及了解和掌握豐富的現代統計方法,為日後讀研深造打下堅實基礎,或為畢業生就業鍛鍊實踐能力。
  • 以一個研究為例,細說I類錯誤和II類錯誤!
    本文由「醫咖會」授權轉載Type I error(I類錯誤):犯I類錯誤的概率,也就是當零假設是真實的,卻拒絕零假設的概率Type II error(II類錯誤):犯II類錯誤的概率,也就是當零假設是不真實的,卻接受零假設的概率我們用一個生動形象的例子來講一下:
  • Python程式設計師最常犯的10個錯誤,你中招了嗎?
    大數據文摘作品編譯:什錦甜、Gao Ning、小魚Python簡介Python是一種具有動態語義的、面向對象的解釋型高級程式語言。因其內置了高級數據結構,並支持動態類型和動態綁定,使用Python進行快速應用程式開發十分便利。
  • 讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾
    在用普通線圖表示事物隨時間變化而變動的情形時,線條縱向波動的位置僅反映了被研究指標在相應時間點上取值的大小。例如指標取值發生「10→100→1000」的變化時,給讀者的提示是,第一階段增加幅度為90,第二階段增加幅度為900,第二階段的增加幅度大於第一階段。
  • 醫學論文寫作中常見統計學問題分析
    統計學主要是一門以統計學原理及方法為基礎,對科研數據進行採集,整理及分析的應用科學,其在醫學研究工作中具有不可替代的重要地位。在臨床實際工作以及相關醫學研究中,統計學方法是醫務工作者在遭遇問題時獲取該問題的相關原因以及理論依據的重要途徑。
  • 很多人常犯的錯誤
    它不僅能極大地縮小飛行時間,同時還能享受優質的空姐服務,與舒適的環境。因此對於很多人來說,飛機逐漸成為外出工作和出行旅遊的首選交通工具。但有一個問題經常困擾大家,就是行李必須的託運。很多人常犯的錯誤!並且可以提高機場工作人員的工作效率,於人於己都有非常大的好處。
  • 孩子為什麼越大越「慫」?家長常犯的3個錯誤是根源,家長要重視
    文 | 小微爸爸課堂(文章原創 ,版權歸本作者所有,歡迎個人轉發分享)孩子膽小,並且隨著年齡的增長,還會越來越「慫」,這些都不是與生俱來的,而是家長在教育孩子時犯的錯誤,導致孩子越來越膽小。在孩子小的時候,每次接觸這些電器,家裡人都會大聲制止孩子,並且告訴孩子這背後的危險,以至於隨著孩子年齡的增長,對這些信息的負面影響越來越大,所以才會變得越來越膽小。其實很多家長都忽略了自己在教育孩子時的行為,這些行為都會影響到孩子的未來,甚至對孩子有非常嚴重的負面影響。
  • 【統計學】讓人糾結的P值
    統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。幾乎到了崇拜的地步,如果沒有達到預期的小概率,即使數據差別很大,我們不承認差異。
  • 一個人最可怕的是:同樣的錯誤重複的犯!
    一個人如果犯了錯,馬上承認,想出個新的方法,也可以,沒有!
  • 12個原因讓研究結果出現錯誤
    但其實研究中發生錯誤的地方還有很多。研究工作在可重複性上面臨的問題,很大程度是因為我們當下的科研圈文化氛圍——讓研究者彼此展開殘酷的競爭,搶奪稀缺的資源。下列原因中的幾項,甚至全部,再加上其它的一些不利因素的共同作用,就會導致其研究結果出現偏差。
  • 統計學的十個法則
    這本書是講統計學的,但一個數學公式都沒有,它給我們提供了10個統計學的法則和教訓,值得我們好好理解,並且在面對統計數據的時候可以拿出來提醒自己。所以今天咱們就來把這10個法則複習一下。祝你每天都有收穫。
  • 「超智·挖坑」簡單談談統計學
    有的哈佛畢業生,收入還比不上一些不知名微商」;(2)菸酒無害論:「隔壁王大爺天天抽菸,活到九十九,而張二狗不抽菸不喝酒,才二十多歲就疾病纏身了,所以啊,抽菸喝酒沒那麼大危害,淨嚇唬人的」;(3)同齡人都結婚啦論:「我當初像你這麼大時都當爸爸/媽媽啦!所以你也得抓緊啊」。其實以上這些問題,本身就犯了缺乏統計學常識的錯誤。
  • 科研SPSS統計思維實戰研討會
    教科書上「精心」挑選的案例大多是理想化的,而實際情景卻常常錯綜複雜,充滿了幹擾信息,研究人員往往難以從中「抽絲剝繭」,提取出恰當的統計模型。簡而言之,只有少數人真正掌握了「統計思維」,相當多的研究人員沒有掌握統計的核心,對各種統計模型的適應條件了解不足,不斷錯誤的使用著統計!
  • 清華大學成立統計學研究中心
    清華大學成立統計學研究中心清華新聞網6月30日電(記者 曲 田)6月27日,清華大學統計學研究中心成立儀式在電子工程館報告廳舉行。石加東 攝薛其坤在致辭中代表清華大學對統計學中心的成立表示祝賀,對與會嘉賓表示熱烈歡迎。他指出,統計學研究中心的成立是清華大學學科建設的一件大事。近年來,作為系統研究數據科學的學科,統計學在學科體系中的重要性愈發凸顯,在科學研究、經濟與社會管理決策方面的重要性也與日俱增,對經濟發展、社會進步和人類生活質量的提高有著顯著意義。