循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?

2021-01-14 心希望快訊

隨著循證醫學成為臨床醫學研究中一項重要的理論和方法，臨床醫學的發展越來越依賴循證醫學研究結果的指導。總體而言，臨床醫學研究結果的意義可以分為兩個部分，即臨床意義和統計學意義。臨床意義是否具有顯著性，主要觀察的是結果效應的大小，而統計學意義是否具有顯著性，則主要觀察的是P值的大小。因此，P值成為了循證醫學中一項重要的臨床醫學結果指標，但是，隨著對循證研究及臨床實踐認識的逐步深入，學術界發現做出科學的論斷不能單純依靠P值。

自1925年Ronald Fisher 提出P值概念以來，P值一直被廣泛應用於臨床試驗的結果分析中，並且通常被認為是判斷臨床試驗結論的標準，當P＜0.05時，結果呈陽性，當P＞0.05時，結果呈陰性。但近年來，關於「Statistical significance（統計顯著性）」和P值的爭議一直存在。2014年，一篇刊發在Nature雜誌上名為《Scientific method：statistical errors》的文章對P值的可靠性提出了質疑。對此，2016年3月美國統計協會（American Statistical Association, ASA）發布了《ASA關於P值的聲明：背景、過程和目的》。ASA隨後又發布了《ASA關於統計意義和P值的聲明》，該聲明給出了P值的定義及各項準則。最終P值被定義為：「P值是指在特定的統計假設模型下，數據的某個統計指標（如兩組樣本均數之差）等於觀察值或比觀察值更為極端的概率。」

臨床意義及統計學意義是臨床研究關注的重點，而這兩者分別由效應大小以及P值體現。對於真正有臨床意義的研究而言，不僅需要統計學角度有意義，更應該明確的是臨床獲益的程度。若學者只關注P值，則極有可能忽略真正的臨床獲益，鑑於有統計學顯著意義的文章更容易發表，而可能同樣重要的非統計學顯著結果則被鎖在抽屜裡，無法被社會獲知，這就是著名的抽屜效應（File-drawer effect）。

2016年ASA發布的P值定義及各項準則中提到：「A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.」即「P值不等同於效應的大小或研究結果的重要性」。由此我們得知，並不是P值越小表示效應越大，結果越重要，也不是P值越大表示效應越小，結果越不重要。對臨床試驗結果進行科學論斷時，需要結合研究設計、數據質量、數據分析等證據來進行綜合推斷。

那麼，學者們應該如何綜合考慮統計學意義和臨床獲益，從而探討臨床試驗的結論呢？可以考慮從以下兩個方面進行探討：

如果試驗主要結局為陰性，即P>0.05無統計學意義，可以考慮從以下幾個方面進一步探討其臨床意義和研究論斷：

當對比治療組和對照組的結果後未獲得P＜0.05的優效結論時，不能孤立地認定治療組療效不佳甚至直接否定其臨床意義。這種結果常見於已上市的有效藥物與標準治療方法的比較，在某些情況下，比如標準治療方法療效已經足夠好，治療組療效僅略優於對照組，所以兩組極有可能在差異性上沒有統計學意義。

當一個研究的主要結局為陰性，需要進一步求證次要結局中是否存在P＜0.05的情況。若次要結局中確實存在陽性結果，那麼這部分研究結果依舊值得進行進一步探討是否有其他方面的獲益，而不是僅僅依靠主要結局指標的P值來判斷是否有意義。因為次要結局的陽性發現也可以對臨床實踐和治療指南起到一定程度的影響。

目前研究人員已越來越重視藥物對人類產生嚴重危害的不良反應。藥物的安全性問題一直以來也受到我國藥品管理部門高度的重視。一項研究不僅需要評價主要結局，同時也需對一些次要結局及安全性進行評估。所以儘管一項研究的主要結局結果為陰性也不可直接否定該研究，研究人員仍需要考慮該研究的次要結局和安全性方面的獲益情況。

一些藥物不僅短期使用可以快速緩解症狀，長期應用還能達到改善預後的目標。這類藥物通常需要較長的研究時間才能觀察到其顯著的統計學意義，也只有通過長時間的研究才能得出這類藥物最大、最優的療效。因此，要探討藥物最佳臨床療效、長期應用效應，研究時間的設置尤為重要。此外，樣本量如果設置得不合理，過大或過小都會影響樣本量效力和統計學效力，所以一項研究的研究時間和樣本量在探討臨床意義的時候也是很重要的。

如果試驗主要結局為陽性，即P＜0.05時，表明有統計學意義，可以考慮從以下幾個方面進一步探討其臨床意義和研究論斷：

如果試驗想更加確信治療措施之間是否存在差異，那麼P值的設定應該更小。這個建議來自於一篇名為《重新定義統計顯著性（Redefine Statistical Significance）》的論文，這篇論文由72名專家共同參與。該論文的發表，激起了科學界對P＜0.005這一設定的探討熱潮。有學者認為將顯著性閾值改為P＜0.005雖然能降低「假陽性」，但很有可能會給研究人員帶來更大的壓力，迫使研究人員進行大規模的研究，甚至是出現偏激行為而強行使P＜0.005。儘管如此，將P值設定為小於0.005還是比較簡單的，可以應用於已發表的和未來的研究，可迅速去除大量沒有研究價值、沒有臨床意義的臨床試驗。

臨床試驗的結果除了要具備統計學意義還需要具備臨床獲益，這取決於觀察獲益的相對指標（如風險比HR）的大小，並且需要提供95%的置信區間。

通常在臨床試驗中會將替代指標和複合指標作為試驗的主要結局，但這些指標都不能完全等同於硬指標（如死亡、心腦血管事件等）。目前已有部分大規模臨床試驗因為主要結局的指標設定不合理而遭到質疑，所以有必要繼續探討替代指標或複合指標中究竟是其中哪些指標導致了陽性結果，才更有利於對臨床試驗結果的科學解讀。

當進行小樣本臨床試驗時，一定要引起重視，因為小樣本試驗獲得陽性結果，即P＜0.05時，有可能是治療效應的誇大而出現的假陽性結果。

當一個臨床試驗顯示陽性結果時，還必須考慮安全性問題。在對試驗結果進行解讀時也應該注重綜合分析統計學數據、療效有效性、安全性三者的權衡。

臨床研究結果是用於指導臨床實踐的，所以我們在解讀臨床研究結果時應該綜合考慮該試驗的研究設計、數據質量、臨床獲益等多種因素，而不能僅僅依靠P值來下結論。

P值是一項重要的臨床醫學結果指標，但是需要注意的是，P值提供的信息有限，將科學的結論推斷簡化為僅評估一個標準（如P<0.05）具有一定片面性，可以結合其他適宜的方法（如計算置信區間），對研究結果進行數據分析。臨床學者在進行臨床結果的解讀時，需要同時重視針對效應量區間估計結果所呈現的統計學意義和臨床意義，這樣才能更全面、更準確地評估研究結果的意義。

高質量循證研究的設計、實施需要耗費大量的人力、物力及財力，其成果的公布更是「重中之重」，選擇何種方式首次公布研究結果？其意義何在？敬請期待下期精彩內容。

相關焦點

《循證醫學》重點大全

循證醫學是最佳研究證據與臨床醫生技能、經驗和病人的期望、價值觀三者之間完美的結合。循證醫學的基本原則1證據必需分級以指導臨床決策2僅有證據不足以作出臨床決策循證醫學的特點1「證據」及其質量是時間循證醫學的決策依據2臨床醫生的專業技能與經驗是實踐循證醫學的基礎3充分考慮病人的期望或選擇是實踐循證醫學的獨特優勢循證醫學實踐的基本步驟和方法1提出明確的臨床問題2系統檢索相關文獻，全面收集證據3嚴格評價，找出最佳證據4應用最佳證據，指導臨床實踐5
最新研究發現循證醫學存「缺陷」

過去二十年以來，統治整個臨床研究領域的方法學範式是循證醫學，對於臨床醫生而言，循證醫學代表著三樣東西：大樣本前瞻性臨床試驗，尤其是大樣本隨機對照試驗（RCT）；Meta-分析；循證指南。定義異質性並加以定量評價，一直是循證醫學發展過程中在其方法學領域最為重要的問題之一。Q統計量是用來評價Meta-分析研究間的差異總和的一種統計量。Q值越大，說明所納入的研究之間存在越大的異質性；反之，Q值越小，則說明所納入的研究之間的差異性越小。但Q的計算方法中隱含了對研究數目的依賴。
醫學英語:循證醫學名詞

relative risk increase， RRI 　　效果 effectiveness 　　效力 efficacy 　　效應尺度 effect magnitude 　　效應量 effect size 　　序貫試驗 sequential trial 　　選擇性偏倚 selection bias 　　循證兒科學
循證醫學名詞術語總匯

secondary studies二次研究證據 secondary research evidence F發表偏倚 publication bias防止1例不良事件發生或得到1例有利結果需要治療的病例數 number needed to treat，NNT非隨機同期對照試驗 non-randomized
協和男護士冷眼看循證為什麼近些年質疑越來越多

醫學發展至今，革命性的診療手段不斷問世，基因測序、靶向治療、3D列印、雲計算，為我們探索人體的奧秘不斷加入新的砝碼。特別是近些年循證醫學的興起，人體、疾病、診療的數據被收集整理，成為指導我們診療護理的依據，甚至成為金標準。循證醫學改變了醫學領域經驗模式的不足，推翻了很多醫務工作者的推斷、直覺與假設。如此振奮人心的改變，如今卻遭到越來越多的人質疑，循證醫學究竟怎麼啦？
關於循證醫學、精準醫學和大數據研究的幾點看法

關鍵詞: 循證醫學；精準醫學；大數據；現實世界研究；流行病學方法循證醫學呼籲醫學實踐須基於現有最好的應用型(而不是基礎型)研究證據[1-2]。沒有循證醫學的敦促，醫學研究就多會停留在理論上；沒有循證醫學的反饋，醫學研究可能會偏離正確的軌道；沒有循證醫學這張盾牌，資本就會更肆無忌憚地讓醫學為利潤服務。
史學「循證」的啟示

現如今，醫學有「循證（循證醫學：Evidence-based medicine，EBM）」，藥學有「真研（真實世界研究：Real World Study，RWS）」。
中醫藥抗疫效果的循證醫學思考

以上結果令人振奮，但也有未說清楚、令人疑惑的地方。從循證醫學的角度看，有以下幾個問題值得探討：這裡說的「有效率」是什麼意思？怎麼定義的？這些中藥方劑或中成藥，對新冠肺炎有明顯療效，指的是什麼，在哪些方面有效果？通過官方、媒體和中醫類自媒體等的廣泛宣傳，中醫或中西醫結合治療新冠肺炎的效果，已經廣為人知。
循證醫學中Meta分析的基本步驟是什麼?

水天聊循證 Weixin ID doctorhappiness
張田勘專欄:電擊療法治網癮未獲循證醫學支持

摘要：循證醫學的基本內容可歸納為一個核心概念、兩個金標準證據、三個基本要素、四個基本步驟和五級證據梯度。電擊療法治網癮，需要更充分的科學評價和嚴格的循證醫學證據。當時，衛生部組織了專家研究和論證了相關問題，認為電刺激療法治療網癮技術的安全性、有效性尚不確切，國內外並無相關臨床研究和循證醫學依據，暫不宜應用於臨床。儘管楊永信稱電擊療法有效，但並未經過嚴格的循證醫學的驗證。
構建循證教育體系推動教育決策和實踐科學化專業化

聯繫到教育決策和實踐，教育學科也需要構建循證教育體系，通過循證教育推動教育決策和教育實踐的科學化和專業化，更好地服務新時代深化教育改革和發展。認識循證教育的本質，明確開展循證教育的方向循證教育是一個新的概念，它是借鑑循證醫學而來，但醫學與教育學是兩個完全不同的學科，形式上借鑑不等於實質上可以照搬。
當「同情用藥」遇上「循證醫學」——俄羅斯疫苗

當「同情用藥」遇上「循證醫學」，如何選擇就是看個人風險承擔能力。————循證醫學————循證醫學（Evidence-based medicine）是現代醫學的重要原則之一，顧名思義，就是「遵循證據的醫學」，又稱實證醫學。其核心思想是醫療決策應在現有的最好的臨床研究依據基礎上作出。也就是大家說的，talk is cheap，show me the data。
複利【新看點】——中英雙語《中醫藥臨床循證叢書》發布,助力中醫藥走向世界!

廣東省中醫院副院長盧傳堅認為，上述叢書對科學認識中醫藥臨床療效、推動中醫藥走向世界具有一定意義。通過臨床療效為導向、循證醫學理念和方法為指導，結合中醫藥自身特色，客觀、科學地對中醫藥臨床療效進行評價。據盧傳堅介紹，上述研究方法是中醫藥走向世界、更廣泛地為人類健康服務且與國際接軌的必經之路。
中國睡眠障礙數據——來自系列循證醫學研究的發現

日前，我國澳門大學健康科學學院精神科項玉濤教授團隊開展了一系列關於中國不同人群睡眠障礙的循證醫學調查研究，結果如下：一、中國普通人群睡眠障礙患病率為全面探討中國普通人群睡眠障礙的流行病學現狀，項玉濤教授在香港中文大學精神科原博士生、現深圳市康寧醫院操小蘭博士和廣東省精神衛生中心王詩鑌博士等開展了此項
真實世界證據,循證醫學研究的「後起之秀」

臨床實踐經常存在超適應證用藥的情況，收集並分析這些數據可以探究藥物在尚未獲批的疾病及人群中的療效，進而為上市後藥物擴大適應證提供可能。2016年12月，美國國會通過了《21世紀治療法案》，明確指出RWE可用於擴展已獲批藥物的適應證。但觀察性研究無法消除未知混雜因素的影響，且常採用回顧性數據收集策略，容易產生偏倚，故在判斷有效性時應慎重。
雲翻譯攜手循證醫學,賦能藥企數位化轉型

《雲翻譯攜手循證醫學賦能藥企》的演講，引起極大共鳴和廣泛討論。除翻譯外，今年我們還重點打造推出了循證醫學產品——雲端知識管家。產品面向藥械研發、臨床研究、醫學事務等多個領域，提供對醫學證據的發現、提取、維護、分析、總結、應用的一站式自動化管理，利用人工智慧技術賦能藥械企數位化轉型與創新，加速科學傳播。目前主要落地的場景包括有醫學溝通、醫生問詢、合規申報等。
鎖骨中段移位型骨折:ORIF還是非手術治療的最新循證醫學證據

切開復位內固定和非手術治療究竟哪個療效更好一直存在爭議，既往循證醫學並未給出答案。卡達的Ahmed醫生根據最新的隨機對照研究文獻進行了一項Meta分析，結果發表在在近期的Journal of Orthopaedic Trauma雜誌上。敬請查閱分享，感謝鼓勵支持。
沙庫巴曲纈沙坦在HFpEF患者中的循證之路|GW-ICC 2020

根據臨床研究結果，新型心衰治療藥物沙庫巴曲纈沙坦在顯著減少終點事件的同時還保持了良好安全性，對腎臟也有額外獲益。近日，在第31屆長城心臟病學會議（GW-ICC 2020）虛擬會議上，來自哈爾濱醫科大學附屬第二醫院的張瑤教授為我們總結了沙庫巴曲纈沙坦在射血分數保留的心衰（HFpEF）患者中的試驗結果。
B肝自然感染分4個階段,循證了解抗病毒,指標判斷肝炎活動

B肝自然感染分4個階段，循證了解抗病毒，指標判斷肝炎活動B肝病毒自然感染分4個階段，分別是免疫耐受期、免疫清除期、低複製期或非活動期、再活動期。對於長期保持B肝DNA陽性，轉氨酶持續升高，抗病毒藥物的使用才是科學防治B肝進展。
循證AI賦能基層醫療,盤點百度在數字健康領域的布局大事件

此前，動脈橙產業智庫梳理了騰訊、阿里的數字健康布局作者：劉渝生微信：【THC575797124】百度圍繞「循證AI賦能基層醫療」的願景，依託醫療數據結構化與知識圖譜兩個核心技術底座能力，已經形成了集篩查、診斷、管理於一體的基層智能化醫療服務體系。

循證|專題2:如何解讀循證醫學研究結果——P值的意義到底何在?

相關焦點

《循證醫學》重點大全

最新研究發現循證醫學存「缺陷」

醫學英語:循證醫學名詞

循證醫學名詞術語總匯

協和男護士冷眼看循證 為什麼近些年質疑越來越多

關於循證醫學、精準醫學和大數據研究的幾點看法

史學「循證」的啟示

中醫藥抗疫效果的循證醫學思考

循證醫學中Meta分析的基本步驟是什麼?

張田勘專欄:電擊療法治網癮未獲循證醫學支持

構建循證教育體系 推動教育決策和實踐科學化專業化

當「同情用藥」遇上「循證醫學」——俄羅斯疫苗

複利【新看點】——中英雙語《中醫藥臨床循證叢書》發布,助力中醫藥走向世界!

中國睡眠障礙數據——來自系列循證醫學研究的發現

真實世界證據,循證醫學研究的「後起之秀」

雲翻譯攜手循證醫學,賦能藥企數位化轉型

鎖骨中段移位型骨折:ORIF還是非手術治療的最新循證醫學證據

沙庫巴曲纈沙坦在HFpEF患者中的循證之路|GW-ICC 2020

B肝自然感染分4個階段,循證了解抗病毒,指標判斷肝炎活動

循證AI賦能基層醫療,盤點百度在數字健康領域的布局大事件

協和男護士冷眼看循證為什麼近些年質疑越來越多

構建循證教育體系推動教育決策和實踐科學化專業化