醫學研究,樣本量計算結果到底給誰看的?

2021-02-28 醫學論文與統計分析

很多人撰寫項目申請書、項目開題、畢業論文開題,總是有那麼一幫在你看來「自以為是」的評審專家,要你計算樣本量。

專家需要看到你一項研究預估樣本量是多少!


可能大多數人都說,專家需要,導師需要,是他們要看。。。。


其實,樣本量是計算給自己看的!


很多人對樣本量的問題都敷衍了事,專家要看,就根據公式湊個樣本量給他就是了。的確這樣做,其實大多數專家是看不出來的,也不用去看。因為,他們想當然,你是在對這個項目負責。


樣本量就是研究者對自身項目能否取得成功的預判。


當你沒有樣本量計算過程,胡亂湊個整數10、30、50,那你對整個項目的預期結果根本無法預計。你根本無法斷定你預期將有多大的可能性獲得陽性結果。


當你為了減少樣本量,用高估的參數去計算樣本量時,那意味著你自己就很清楚,你將有較高的概率結果是陰性結果。

只有客觀估計樣本量,你的統計分析結果才會在你的預期中。


不算樣本量,你這是在浪費自己時間、浪費國家資源、你做得意義何在?

計算樣本量需要從文獻上查參數

比如,兩組均數的比較案例:比較某藥物A和B治療女性膀胱過度活動症,其結局指標為排尿症狀評分,為定量數據,定量結局往往探討的是2組或多組均數有無統計學差異。本例為2組均數的比較。則一組樣本量計算公式如下:

那麼你得查到定量數據排尿症狀得分的A、B組的差異性𝛿,和他們的標準差𝜎,結合Zα(一般1.96)和Zβ(1.28或者0.84),就可以計算了。

那麼問題來了。鄭老師,文獻沒有參數怎麼辦?


最好的辦法是通過做預實驗得到!

如果預實驗都沒有做,怎麼辦?

那麼,樣本量的估計就基於前人的經驗吧,沒有參數,可以借鑑相似文獻們,。可聽取師兄姐、老師的意見,擬定參數。不用怕,沒有專家會質疑。只要你自己擬定的參數是基於客觀經驗得到,是真實的預估。

因為,最終還是算給你自己看的。你究竟玩科研,還是做科研,全在在你自己是否嚴謹計算。

科研,是要做有底氣的!



本公眾號作為醫學數據分析公眾號,提供一些原創、免費醫學統計學學習資源下載,歡迎點擊下載。

相關焦點

  • 觀察性療效比較研究的樣本量計算,研究實例及注意事項
    樣本量計算」章節,該章節的作者為:Eric S. RCT研究中樣本量計算需要考慮的問題,在非隨機對照研究中同樣需要考慮,但一些參數的設定方法和計算方法與RCT設計可能有一些區別。下面的內容將著重介紹非隨機對照試驗設計中樣本量計算需要考慮的問題及處理方法。
  • 醫學統計與R語言:Kendall是誰?樣本量是自變量的10倍?
    在非常多的中文文獻中關於多重線回歸分析的樣本量是這樣描述的:「根據Kendall粗糙確定樣本量原則,樣本量可取變量數的5-10倍,考慮到失訪和不合作情況,在原有樣本量的基礎上再擴大20%作為擬調查的樣本例數。」
  • 循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?
    隨著循證醫學成為臨床醫學研究中一項重要的理論和方法,臨床醫學的發展越來越依賴循證醫學研究結果的指導。總體而言,臨床醫學研究結果的意義可以分為兩個部分,即臨床意義和統計學意義。臨床意義是否具有顯著性,主要觀察的是結果效應的大小,而統計學意義是否具有顯著性,則主要觀察的是P值的大小。
  • 科普| 細節決定A/B測試的成敗:有底線的樣本量
    看了這個案例,你可能會產生這些疑惑:會出現這些情況居然是因為樣本量給的不足?這與實驗有什麼聯繫?如果是的話,做一個測試,要給出多少樣本量才是足夠的?所以說確定你的實驗對於樣本量大小的需求是很重要的。然鵝,我在網上那些A/B測試入門教程裡少有看到對於樣本量估算的介紹,大量的A/B測試科普文章仍舊停留在介紹A/B測試怎麼怎麼厲害怎麼怎麼牛逼,要怎麼怎麼做怎麼怎麼注意(是的沒錯之前我們也是這樣的~233)。但就是不告訴你到底應該劃拉多少人來做。別慌。
  • 談談樣本量選擇背後的科學道理
    由於總體差異越大,需要的樣本量就越大。我們面對任何總體的時候,都可以假設「這是一個差異性最大的總體」,來計算我們所需要的樣本量。因此,把p=0.5代入,就簡化出了一個可以供我們輕鬆計算樣本量的公式。如果想看到總體不同差異所對應的樣本量,前人還總結了這樣一個表:
  • G.Power教程 | 樣本量估計
    而審稿人常問的一個問題是:這個被試量太少了,我對所得到的結果的準確性感到擔憂~看到這裡我們就慌了,怎麼辦?解決方法有兩個:要麼補實驗數據;要麼讓審稿人信服你的被試量是足夠的,得到的結果是可靠的。那麼,你可以採取另外一種辦法:使用G.Power進行先驗分析,估計出所需要的樣本量,然後看看你的數據量能否大於估計的樣本量。或者使用事後分析,說明你現目前的數據量可以達到什麼樣的效應量和統計功效水平,是足夠讓人信服的。其實,這一步應該在實驗之前就應該進行。
  • 樣本量n>30時,還能繼續使用T檢驗嗎?
    到底看哪個Levene"s Test for Equality of Variances一欄中sig, 還是看t-test for Equality of Means中那個Sig. (2-tailed)啊?答案是:兩個都要看。
  • 檢驗功效(Power)與樣本量
    在樣本量n一定的情況下,α減小,β就會增大;β增大,α就會減小;要想同時減小α和β,只有增大樣本量n才行*。*因為增大樣本量會使得樣本均值的置信區間變窄,從而使得均值的正態分布曲線變得更窄。假設檢驗的功效(Power)受到以下三個因素的影響:樣本量:其他條件保持不變時,樣本量越大,功效越大。
  • 計算醫學:跑在超算上的醫學|醫學|計算技術研究所|譚光明|基因
    中國科學院計算技術研究所副研究員、中國科學院計算技術研究所西部高等技術研究院常務副院長張春明表示,應充分利用現有的生物醫學數據,引入系統科學理論和視角,通過設計新的算法挖掘數據之間的關係,為解決現有的問題尋找新的路徑。最終,以生物醫學大數據推動生物醫學研究由原來的假設驅動向數據驅動的方式轉變。
  • 最新研究發現循證醫學存「缺陷」
    作為從循證醫學進入中國之初就開始進行Meta-分析研究的醫生和科學家,我們認為以下幾個理由是主要的:●大多數臨床試驗的樣本量不夠大。樣本量小了,其對假說的驗證能力就低了,但是大樣本臨床試驗成本很高。把來自於很多個研究者的臨床試驗通過Meta-分析合併在一起,可以在不增加成本的情況,很快地增加樣本量,從而減少達到有效樣本量所需結論的成本。
  • R中計算樣本均值的方法
    樣本均值的概念樣本均值是統計學中考量一組數據的集中趨勢的統計量之一。設X1, X2, ..., Xn是總體X中的一個樣本,則統計量樣本均值的計算方法如下:樣本均值計算公式R中計算樣本均值的函數在R中,mean()函數用於計算樣本的均值,其使用格式為:mean(x, trim=0, na.rm = FALSE, ...)
  • 17分觀點:臨床微生物組研究,要多少樣本才夠?
    過少的樣本量難以幫助我們發現差異,而過多的樣本量意味著巨大的研究成本。那麼究竟需要多少樣本量?如何進行合理的估算呢? 例一用於推動臨床生物標誌物研究的標準樣本量的計算,而例二則解決的是多元模型和距離矩陣的複雜性。
  • 定目的、觀數據、斷樣本、選公式、縮誤差,五步估算你的樣本有多準
    當我們缺少用戶總體數據的情況下進行估算的時候,即便是最好的估算結果也只能接近,但並不能得到真實的結果。而且樣本量越小,結果的準確性越差。我們需要一種方法來判斷估算我們到底有多準確才行。於是我們將在一定概率下包含未知參數的這部分數值區間提取出來,這個範圍就叫做置信區間。
  • 人類微生物組研究設計、樣本採集和生物信息分析指南
    然後,我們討論了研究設計方案、樣本量計算方法以及提高研究可靠性的方法。我們特別強調了陽性和陰性對照的重要性。接下來,我們討論了微生物組研究中常用的統計分析方法,重點關注多重比較的問題以及組間β多樣性分析的方法。最後,我們介紹了生物信息學分析的具體流程。總之,嚴謹的研究設計是獲得有意義結果的關鍵步驟,而適當的統計方法對於準確解釋微生物組數據很重要。
  • 讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾
    特別當參考文獻中的研究是基於大樣本時,一般認為變量的分布形式可以直接參照。如果在相關文獻中未查到某醫學指標的分布規律,而該指標又是我們感興趣的變量,那麼就可以在大樣本基礎上,藉助SPSS等統計分析軟體對資料分布形式作統計檢驗。
  • 因素分析的樣本量得多少
    作者:晃晃悠悠 審核:X 封面:自己想吧        樣本量就是樣本中所包含的單位的個數,即抽樣單位數。樣本量直接影響抽樣誤差、調查的費用、調查所需的時間、調查訪員的數量以及其他一些重要的現場操作的限制條件。樣本量過大,會造成人力、物力和財力的浪費;樣本量過小,會造成抽樣誤差增大,影響抽樣推斷的可靠程度。
  • 關於循證醫學、精準醫學和大數據研究的幾點看法
    科學從來不會待考察了總體後才進行推論;研究需要的樣本量恰恰與效果大小成反比;否定因果關係就是對流行病學科學原理和方法的否定,放棄了對真實性的保障,最終會導致防治的無效。因此,在確認療效上,基於大數據的現實世界觀察性結果不能取代隨機對照試驗的實驗性證據。本文謹希望以懷疑和批評的方式,激發出精準醫學和大數據蘊藏的真正潛力。
  • 地球的年齡是如何計算出來的?兩個令科學家恐懼的物理量。
    目前公認的地球年齡是45.5億年,那麼長的時間跨度是怎麼計算出來的?如果想準確計算出地球的年齡則需要一個速率恆定、量程極大的物理量,兩者缺一不可。在人類歷史上,地球年齡的計算曆程也是一波三折。兩個刁鑽的物理量起初,人們想到的是利用海洋鹽度起源作為特殊的物理量進行計算,不過在研究中發現海水深度與鹽度的垂直變化受外界的影響程度很大,它不滿足「速率恆定」這個條件。很遺憾,在這個方向的研究進程理論出現塌陷。
  • 地球的年齡是如何計算出來的?兩個令科學家恐懼的物理量
    目前公認的地球年齡是45.5億年,那麼長的時間跨度是怎麼計算出來的?如果想準確計算出地球的年齡則需要一個速率恆定、量程極大的物理量,兩者缺一不可。在人類歷史上,地球年齡的計算曆程也是一波三折。兩個刁鑽的物理量起初,人們想到的是利用海洋鹽度起源作為特殊的物理量進行計算,不過在研究中發現海水深度與鹽度的垂直變化受外界的影響程度很大,它不滿足「速率恆定」這個條件。很遺憾,在這個方向的研究進程理論出現塌陷。
  • 醫學寫作中數據的統計方法及結果常見問題及分析
    醫學論文中,最常見的此類錯誤就是實驗設計是多組研究,需要對數據使用方差分析的時候,而作者都採用了兩樣本的均數檢驗。二、統計方法闡述不清楚。在同一篇醫學論文中,不同數據要採取不同統計處理方法,這就需要作者清楚地描述出每個統計值採用的是何種統計學方法,但在許多使用一種以上數據統計分析方法的醫學論文中,作者往往只是簡單地把論文採用的數據統計方法進行了整體羅列,並沒有對每個數據結果分析分別交代具體的統計方法,這就很難讓讀者確認某一具體結果作者到底採用的是何種數據分析方法。