在傳統的實驗設計中,由於種種混雜因素的存在,我們僅僅能夠分析變量之間的關聯性,最典型的比如GWAS, 對於顯著的位點,只能夠說明這些位點和性狀之間存在關聯。對於了解事情發生的原因和規律而言,關聯性是不夠的,我們需要的是因果性。為了更好的探究因果關係,必須在實驗設計和方法上加以改進。
孟德爾隨機化, Mendilian Randomization, 簡寫為MR, 是一種在流行病學領域應用廣泛的一種實驗設計方法。通過引入一個稱之為工具變量的中間變量,來分析暴露因素和結局之間的因果關係,示意圖如下
參考資料
http://chinaepi.icdc.cn/zhlxbx/ch/reader/create_pdf.aspx?file_no=20170427&flag=1&journal_id=zhlxbx&year_id=2017
傳統的實驗方法直接探究暴露因素和結局變量之間的因果關聯,由於混雜因素的存在,無法有效說明二者之間的因果性。工具變量的引入巧妙規避了混雜因素的影響,在上述模型中
暴露因素X和結局變量Y會受到混在因素U的影響
工具變量Z和混雜因素U之間不存在任何聯繫,相互獨立
工具變量Z和暴露因素X之間存在關聯性, 結局變量Y之間沒有直接的關聯性,僅能夠通過暴露因素X和結局變量Y之間建立關聯
之所以稱之為孟德爾隨機化,是因為在工具變量的選擇上,將遺傳變異作為了工具變量。在孟德爾遺傳規律中,親代等位基因隨機分配給子代,基因型決定表型,基因型通過表型與疾病發生關聯,基因型看做是工具變量Z, 表型看做是暴露因素X, 疾病看做是結局變量Y。
基因型(特指胚系細胞的基因型)是先天決定的,不會受到生長環境,經濟地位,行為因素的幹擾,而且先有基因,再有表型,再有疾病,三者的先後順序符合因果時序。
孟德爾隨機化的具體實驗設計有很多種,來看一個最簡單的模型,示意如下
遺傳變量G與暴露因素X有關聯,如果觀測到遺傳變異與解決變量Y之間也存在關聯,那麼可以說明是遺傳變異G通過暴露因素X對結局變量Y造成的影響,從而說明了暴露因素X和結局變量Y之間的因果性。
上述模型稱之為一階段MR, 為了增加分析結果的可靠性,量化關聯效應的大小,還有很多更複雜的孟德爾隨機試驗設計,比如獨立樣本MR, 兩樣本MR, 雙向MR, 兩階段MR, 基因-暴露交互作用MR等等,其中兩樣本MR,用來自相同群裡的兩批數據分別研究遺傳變異G與暴露因素X, 遺傳變異G與結局變量Y之間的關聯性,通常是利用大樣本量的GWAS分析,由於其樣本量大,分析結果具有較好的把握度。而且可以基於已有的GWAS結果來進行分析,經濟高效,應用的最為廣泛。
在選擇遺傳變異時,可以是SNP,也可以是CNV等其他類型的遺傳變異,只不過SNP使用的最多。對於SNP而言,並非選擇全部的SNP位點,而是需要選擇與暴露因素具有較強關聯性的SNP位點,可以參考gwas結果來進行篩選。篩選出SNP位點之後,還有多種建模方式,可以利用單個SNP位點,多個SNP位點,等位基因個數,遺傳風險評分等不同方式來建模,量化關聯。使用多個SNP位點來建模時,需要進行MR-Egger分析來評價基因多效性帶來的偏倚。
GWAS數據的不斷增加為孟德爾隨機化研究提供了數據基礎,隨著統計方法的推陳出新,各種組學技術的發展,孟德爾隨機化的研究也應用的越來越廣泛。
·end·