阿爾茨海默症(AD)和帕金森病(PD)是兩種最常見的神經退行性疾病。儘管全基因組關聯研究(GWAS)已確定了多個潛在的基因風險位點【1-2】。然而大多數風險位點都位於非編碼區,因此尚不清楚這些基因是否與疾病功能相關,亦或者是與其他基因有關聯。
單核苷酸多態性(簡稱SNPs)主要是指在基因組水平上由單個核苷酸的變異(鹼基的轉換或顛換、插入或缺失)所引起的DNA序列多態性。它是人類可遺傳的變異中最常見的一種。大多數的功能性非編碼SNPs可以通過幹擾轉錄因子的結合和調控元件的功能來改變基因的表達,從而來發揮其作用【3-4】。值得注意的是,這些調控元件具有高度的細胞類型特異性,這提示SNPs也有細胞類型特異性。因此需要在正確的組織和區域背景下對每一種腦細胞類型中活躍的調節元件進行分類和功能揭示,進而幫助闡明常見神經退行性疾病分子發病機制中的基因風險位點功能的重要性。
在於2020年10月26日以Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases為題發表於Nature Genetics的文章中,美國史丹福大學醫學院的Thomas J. Montine教授和Howard Y. Chang教授合作團隊旨在通過單細胞染色質圖譜來鑑定細胞類型特異性調控元件,並應用機械學習來幫助預測AD和PD的功能性SNPs。研究者確定了AD和PD中幾個非編碼GWAS位點的靶基因和細胞類型;這些數據和技術也為其他神經系統疾病中的應用提供了指導,使我們能夠更全面地了解遺傳性非編碼變異在疾病中的作用。
染色質的可及性(chromatin accessibility)通常理解為開放染色質(open chromatin),指緻密的核小體結構被破壞後,啟動子、增強子、絕緣子、沉默子等順式調控元件和反式作用因子可以接近的區域,與真核生物的轉錄調控密切相關。早在2013年,史丹福大學醫學院的的William J. Greenleaf教授和Howard Y. Chang教授實驗室合作開發了一種可以用於研究染色質可及性的方法,稱為Assay for Transposase-Accessible Chromatin with high throughput sequencing,即轉座酶可接近性染色質測序技術,或轉座酶可及性染色質測序技術,亦或染色質開放性測序技術,簡稱ATAC-seq。其原理是通過轉座酶Tn5容易結合在開放染色質的特性,然後對Tn5酶捕獲到的DNA序列進行測序【5-7】。與其他技術(例如研究相似染色質特徵的FAIRE-Seq或DNase-Seq)相比,ATAC-Seq的主要優勢在於該測定所需的細胞數量更少,並且其兩步法操作相對簡單。
那麼,鑑於ATAC-Seq的強大優勢,本文中,首先,作者應用ATAC-Seq繪製了39名認知正常個體的新皮層、海馬體、黑質、紋狀體等腦解剖區樣本的大染色質圖譜,進而來研究非編碼基因組在神經退行性疾病中的作用(圖1)。這些大ATAC-seq數據,即峰值(peaks)表明了染色質可及性的區域差異。
圖1 本文所研究的大腦區域(左)和腦區樣本的ATAC-Seq峰值(右)
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
圖2 樣本的scATAC–seq數據
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
不同腦區的不同細胞的染色質可及性如何呢?於是作者對樣本的7萬多個單細胞進行了染色質可及性分析,即單細胞ATAC-Seq(簡稱scATAC-Seq),並鎖定了24個細胞類群(cluster),主要包括興奮性神經元、抑制性神經元、小膠質細胞、少突膠質細胞、星形膠質細胞和少突細胞祖細胞(OPCs)(圖2-3)。重要的是,scATAC-Seq分析表明了特異性的遠端/內含子峰的富集,啟動子峰的缺失,這與遠端調控元件在細胞類型特異性基因調控中的作用是一致的(圖3)。另外,結果也提示了scATAC-Seq的實用性,特別是考慮到,當從含有多種不同細胞類型的大塊組織中鑑定出特定細胞類型的峰值時,scATAC-Seq具有明顯的優越性。
圖3 染色質可及性熱圖(左)和調節元件基序分析(右)
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
為了進一步研究是哪些轉錄因子可能負責建立和維持這些細胞類型特異性的調控程序。作者則對每種細胞類型的峰值進行了基序富集分析,即結構域分析。結果顯示了多個已知的細胞類型識別驅動因素,如少突細胞中SOX9和SOX10的基序,OPCs中的ASCL1的基序;以及轉錄因子SPI1和JUN/FOS分別在小膠質細胞和神經元中的富集(圖3)。這些數據進一步表明了ATAC-seq細胞類型特異性,特別是鑑定了膠質細胞(如星形膠質細胞和OPCs)的腦區域的異質性。
圖4 30個「神經元類群」
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
考慮到神經元類型和功能的多樣性,研究者想進一步細化了scATAC-seq數據。批次校正分析顯示了30個「神經元類群」,每個類群則表示了一種獨特的神經元細胞類型或細胞狀態,並確定了神經元細胞類特異性的峰值、基因、以及轉錄因子活性(圖5)。有趣的是,數據分析確定了在一種PD中丟失的關鍵細胞類型,即黑質多巴胺能神經元類群,確切來講是酪氨酸羥化酶陽性多巴胺能神經元群(圖5)。
圖5 神經元特異性GWAS SNPs的連鎖不平衡分析
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
以上數據充分表明了scATAC-seq數據的細胞類型特異性,那麼接下來,在染色質可及性的特定細胞類型區域是否富集了與神經退行性疾病相關的SNPs?細胞特異性連鎖不平衡分析顯示,AD的小膠質細胞峰值集中,每個SNP的遺傳概率都有顯著的增加,而PD的任何細胞類型中,無SNP遺傳概率的顯著富集,這可能是因為PD的細胞比AD更加複雜(圖5)。換句話說,在任何的AD或PD神經元類群的峰值區域中均未發現SNPs的顯著富集。【補充:連鎖不平衡(linkage disequilibrium,簡稱LD)是指分屬兩個或兩個以上基因座位的等位基因同時出現在一條染色體上的機率,高於隨機出現的頻率。HLA不同基因座位的各等位基因在人群中以一定的頻率出現。簡單地說,只要兩個基因不是完全獨立地遺傳,就會表現出某種程度的連鎖。這種情況就叫連鎖不平衡。連鎖不平衡可以是同一條染色體上的不同區域,也可以是不同染色體上的。】
因此,鑑於上述結果,作者想進一步研究每個GWAS位點的靶基因。為此,作者使用HiChIP標記乙醯化組蛋白H3賴氨酸27(即H3K27ac),來標記活性的增強子和啟動子,從而來繪製以增強子為中心的染色質三維構象。數據分析確定了各腦區的共833975個染色質三維交互;67.4%的交互有ATAC-seq峰值出現在兩個信號錨定序列,29.2%有ATAC-seq峰值出現在一個信號錨定序列,剩餘的3.4%則無ATAC-seq峰值的重疊。這些數據表明:scATAC-seq可以精準定位GWAS多態性的細胞靶點,從而讓GWAS SNPs與下遊靶基因相關聯起來。【補充:信號錨定序列指穿膜蛋白中的一種獨特的信號序列,其作用是將這些蛋白質錨定在脂雙層膜上。連鎖不平衡是指分屬兩個或兩個以上基因座位的等位基因同時出現在一條染色體上的機率,高於隨機出現的頻率】
圖6 應用多層次的多組方法(左)和機械學習(右)來研究功能性的非編碼GWAS多態性
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
圖7 應用多層次的多組方法和機械學習來研究AD和PD中的功能性非編碼GWAS多態性
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
為了進一步解釋GWAS多態性的功能效應,首先作者構建了一個AD和PD疾病相關的SNPs庫,共9707個SNPs,其中3245個SNPs分布在與AD相關的44個基因座上,6496個則分布在與PD相關的86個基因座上,其中34個SNPs出現在兩種疾病的同一個基因座上。然後作者開發了一種多層次的多組方法來預測功能性的非編碼GWAS多態性:先將這些SNPs與ATAC-Seq的染色質可及性峰值進行重疊分析(Tier3),再鑑定出可能影響調控相互作用的SNPs(Tier2),最後鑑定出可能直接影響轉錄因子結合的SNPs(Tier1)(圖6-7);並應用了支持向量機和等位基因不平衡分析,最終確定了可能參與AD和PD的基因和分子過程,以及那些參與非編碼調控的GWAS位點。這些也說明多層次的多組方法能夠預測功能性的非編碼SNPs。【補充:支持向量機(Support Vector Machine,SVM)是一類按監督學習(supervised learning)方式對數據進行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-margin hyperplane)。SVM使用鉸鏈損失函數(hinge loss)計算經驗風險並在求解系統中加入了正則化項以優化結構風險,是一個具有稀疏性和穩健性的分類器。SVM可以通過核方法(kernel method)進行非線性分類,是常見的核學習方法之一 。】
圖8 AD和PD中PICALM(左)、SLC24A(右)的功能性非編碼SNPs分析
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
緊接著,作者重點關注了SNPs仍然未知的疾病相關基因、以及以前研究中的與疾病病原學無關的基因。儘管GWAS表明PICALM、SLC24A、BIN1、KCNIP3等基因與AD有關,然尚不清楚是哪些多態性驅導致了這種關係。首先以PICALM為例,作者發現,存在一種潛在的功能性變異,該變異擾亂了FOS/AP1因子結合位點,且這個位點位於PICALM上遊的一段突膠質細胞特異性的調控元件序列;且該突變有明顯的等位基因不平衡,即連鎖不平衡,與PICALM和EED均顯示三維交互(EED屬於參與維持抑制轉錄狀態的多梳族家族成員之一)(圖8)。這一結果則表明了PICALM基因的新功能、及其在少突膠質細胞中的特殊作用。類似的,作者發現,SLC24A4基因座也有一個小的連鎖不平衡區域,包含46個SNPs,且SNPs都位於SLC24A4的內含子內。其中有一個SNPs比較特殊,具有小膠質細胞特異性,它會干擾SPI1基序,並與RIN3基因的啟動子進行「信息溝通」;這與RIN3在胞吞通路中的作用是一致的,而胞吞通路對AD中小膠質細胞的正常功能至關重要(圖8)。此外,作者也發現,KCNIP3中有94個SNPs。其中一個變異可以破壞少突細胞特異性SOX6的基序,該基序參與髓鞘的發生和功能;另外有一個變異位於KCNIP3內含子中,有神經元特異性,並與該基因的啟動子有明顯的相互作用。總之,這些數據提示了SNPs具有AD中少突膠質細胞和神經元的特異性功能,以及功能性非編碼SNPs的複雜性(圖9)。
圖9 AD和PD中ITIH1(左)、KCNIP3(右)的功能性非編碼SNPs分析
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168
MAPT基因編碼tau蛋白,在AD中,tau的異常磷酸化會形成神經原纖維纏結。儘管MAPT與PD風險有很強的相關性,然而基因位點如何在PD中發揮作用仍不清楚。作者發現,MAPT有一段很大的連鎖不平衡區域,且其有兩個不同的單倍型,即H1和H2,二者都有超過2000個的SNPs,且在MAPT中的有近1800000個核苷酸的倒置(圖10)。【單倍型,又稱單倍體型或單元型,指個體組織中,完全遺傳自父母雙方中一個親本的一組等位基因,即位於染色體上某一區域的一組相關聯的SNP等位位點。】
圖10 MAPT基因座、核苷酸倒置、H1和H2單倍體
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
同時,作者繪製了MAPT位點的染色質可及性單倍體特異性圖譜和三維染色質交互圖譜,並從雜合子的H1/H2中剝離出純合子的H1/H1和H2/H2,從而來探究兩個單倍體的功能異同。作者發現,MAPT啟動子的上遊有一段H1特異性的調控元件序列,以及MAPT的下遊包含KANSL1基因的啟動子序列;MAPT上遊的H1特異性調控元件與MAPT內含子的第二個調控元件以及與MAPT啟動子的相互作用增強(圖10-11)。此外,作者也發現,MAPT上遊的區域邊界與KANSL1啟動子周圍區域之間的H2特異性三維相互作用(圖10-11)。
圖11 MAPT基因座的HiChIP(上)、大ATAC-Seq(中),以及MAPT的皮層基因表達分析
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
最後,作者探究了這些表觀遺傳變化如何影響單倍型特異性的基因表達。發現,在MAPT基因表達方面,兩個單倍體有明顯的差異,這種基因差異可能提示了MAPT單倍型所介導的病理性作用。這些數據分析闡明了H1和H2單倍型之間的MAPT鹼基倒置區域的基因組序列是如何不同的;或換言之,通過改變MAPT基因序列的方向,這種鹼基倒置可能會改變基因的表達(圖10-11)。作者的確也發現,在位於MAPT上遊有一段神經元特異性的調控元件基序,且在單倍體H1中,該元件基序會增強與MAPT啟動子的相互作用。
圖12 對MAPT基因座的HiChIP(上)、scATAC-Seq(中)、核苷酸倒置(下)的數據分析
(圖片引自:Corces, M.R., et al..Nat Genet2020;52: 1158–1168)
文章結論
研究表明了AD和PD中遺傳性非編碼變異(即SNPs)作用的高解析度表觀遺傳學表徵,拓展了我們對AD和PD遺傳變異的理解,並為神經退行性疾病和其他複雜遺傳疾病的非編碼變異的表觀基因組研究提供了參考。
多層次多組學捕獲技術可以幫助我們通過染色質可及性峰值重疊來探究來影響基因表達的多態性,並可以通過三維染色質相互作用來反應基因靶標的多態性,從而來研究這些變異的功能,而且採用機器學習的方法可以幫助預測或理解多態性如何擾亂轉錄因子結合。
鑑於上述方法的優勢,相比較以往的研究,本文中,作者探究了AD和PD中更多的基因表型、以及非編碼變異的功能。綜合分析也表明MAPT基因位點在AD和PD中的表觀遺傳學特性,從而加深看我們對AD和PD的非編碼變異的理解。
更廣泛地說,這項工作提供了一種系統的方法來理解疾病中的遺傳變異,也為新治療靶點提供了研究思路和技術。
原文連結:
https://doi.org/10.1038/s41588-020-00721-x
參考文獻(上下滑動查看)
【1】Kunkle, B. W. et al. Genetic meta-analysis of diagnosed Alzheimer’s disease identifies new risk loci and implicates Aβ, tau, immunity and lipid processing. Nat. Genet. 51, 414–430 (2019).
【2】Nalls, M. A. et al. Identification of novel risk loci, causal insights, and heritable risk for Parkinson’s disease: a meta-analysis of genome-wide association studies. Lancet Neurol. 18, 1091–1102 (2019).
【3】Gallagher, M. D. & Chen-Plotkin, A. S. The post-GWAS era: from association to function. Am. J. Hum. Genet. 102, 717–730 (2018).
【4】Nott, A. et al. Brain cell type-specific enhancer–promoter interactome maps and disease-risk association. Science 366, 1134–1139 (2019).
【5】Jason D Buenrostro, et al., Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA. Nat Methods. 10 1213–1218 (2013).
【6】Trevino, A. E. et al. Chromatin accessibility dynamics in a model of human forebrain development. Science 367, eaay1645 (2020).
【7】Corces, M. R. et al. An improved ATAC-seq protocol reduces background and enables interrogation of frozen tissues. Nat. Methods 14, 959–962 (2017).
2019年熱文TOP10
1. 逆轉2型糖尿病的大牛又發文了:2型糖尿病是簡單的疾病,減肥或逆轉病情!
2. 剛剛,Science發布2019十大科學突破!
3. Science重磅!西蘭花「喚醒」抗腫瘤基因
4. 讀者淚目!《柳葉刀》全中文發表中國醫學博士「家書」:給父親的一封信
5. 《Science》重磅!汝之「蜜糖」,吾之「砒霜...」
6. 喝酒,尤其還臉紅的人,或面臨更高的痴呆風險
7. Nature重磅!第一個完全合成且徹底改變DNA密碼的生物誕生了
8. 這不是一顆大榛子!Science發表新型口服胰島素,或將取代傳統注射
9. Science為防禿頂支招:先從不脫髮開始...
10. 改變精子速度,可以影響後代性別?