阿爾茲海默症(AD)和帕金森氏症(PD)是世界範圍內的常見神經退行性疾病。通過全基因組關聯研究(GWAS),科學家們已經鑑定出了數千個與這兩類疾病相關的單核苷酸多態性(SNP),但這些SNP大多處於基因組的非編碼區域,因此難以確定其功能。
近日,來自史丹福大學的Howard Chang和Tomas Montine團隊,利用單細胞/多細胞ATAC-Seq和HiChIP數據,分析了認知健康人群大腦不同區域的染色質可及性和三維基因組構象,繪製了成年人類大腦的多組學表觀遺傳圖譜。此外,研究團隊還開發了相應的機器學習框架整合這些多組學數據,用於預測AD和PD相關的非編碼區SNP功能。該研究結果發表在Nature Genetics上,文章題為「Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases」。
圖1. 文章發表在Nature Genetics
利用傳統的多細胞ATAC-Seq,研究團隊首先描繪了來自39個神經系統健康個體的7個大腦區域的染色質可及性圖譜(圖2)。隨後又選取其中10個樣本進行單細胞ATAC-Seq分析,一共獲得了70,631個細胞中的染色質可及性數據。去除批次效應後進行聚類分析,研究人員發現這些細胞可聚成24個類別,分屬於8種不同的細胞類型(圖3),其中包括六種主要的大腦細胞類型:興奮性神經元(excitatory neurons), 抑制性神經元(inhibitory neurons),小膠質細胞(microglia),寡突膠質細胞( oligodendrocytes),星狀膠質細胞(astrocytes)和寡突膠質細胞祖細胞(oligodendrocyte progenitor cells)。
圖2. 研究中取樣的7個大腦區域,圖片來源:Nature Genetics
圖3. 70,631個單細胞ATAC-Seq數據利用UMAP聚類的結果,圖片來源:Nature Genetics
模體(Motif)分析的結果顯示,不同細胞類型的染色質可及性區域都結合有特異性的驅動轉錄因子,例如小膠質細胞中的SPI1和神經元中的JUN/FOS。同時,研究人員對研究中的神經元細胞進行了聚類分析,鑑定出了30種不同的細胞亞類(圖4)。
圖4. UMAP分析鑑定出的30種神經元細胞亞類,圖片來源:Nature Genetics
為了找出非編碼區域SNP的靶標基因,研究人員從最初取樣的7個大腦區域中選擇了其中的6個,製備H3k27ac介導的HiChIP文庫並進行測序,共鑑定出了833,975對染色質交互作用。同時,研究團隊利用單細胞之間可及性強度大小的協同變化情況(co-accessibility),預測出了2,822,924個交互作用。通過這兩種分析方式獲得的交互作用只有20%的重合,表明HiChIP只能鑑定出同一類細胞共有的交互作用,無法捕獲細胞間特異性的交互作用。
此外,研究團隊將ATAC-Seq和HiChIP數據結合預測了非編碼區域SNP的功能,並將SNP的功能按照重要程度分成幾個層級(圖5):
1. SNP位於多細胞或單細胞ATAC-Seq的可及性區域中(第三層次)。
2. 符合條件1的SNP,同時參與H3K27ac介導的交互作用(次重要)。
3. 符合條件1和2的SNP,同時處於轉錄因子結合位點中(最重要)。
對於屬於最重要類別的SNP,研究人員開發了一種多組學機器學習框架(gapped k-mer supprot vector machine / gkm-svm)來預測單個SNP在等位基因不同位點的結合情況。
圖5. 非編碼區域SNP功能預測流程圖,圖片來源:Nature Genetics
研究人員認為,新開發的多組學結合的機器學習預測方法,主要解決了以下兩類問題:
1. 已知一些基因與疾病相關,找出遠程調控這些基因的SNP。
例如,PICALM是一個與AD相關的基因,作者發現rs1237999位於PICALM上的遠程調控元件中,並處於轉錄因子FOS/AP1結合motif上。同時rs1237999特異性的結合在等位基因的其中一個位點上。
2. 已知一些SNP與疾病相關,找出這些SNP調控的基因。
位於ITIH1的Lead SNP處於600Kb長的LD block中,一共包含317個SNP。研究發現,其中一個SNP rs181391313位於微膠細胞特異性的調控元件中,而這個調控元件處於STAB1基因的內含子內部。STAB1基因編碼一種大的跨膜受體蛋白,其功能與淋巴細胞歸巢(lymphocyte homing),低密度脂蛋白內吞作用(endocytosis of ligands)相關,這兩種功能都與微膠細胞參與PD吻合。同時,該SNP破壞了轉錄因子KLF4的結合位點,而KLF4在小膠質細胞相關基因的活化中也發揮功能。
MAPT基因編碼tau蛋白,這種蛋白的過度磷酸化在胞內形成神經元纖維纏結,在AD中起著關鍵作用,但是目前還不清楚MAPT具體如何影響PD。研究人員在MAPT基因區域創建了haplotype特異性的三維基因組圖譜,並鑑定出28個可及性發生變化的區域,其中就包括在MAPT啟動子上遊68Kb處H1單倍型特異性的遠程調控元件,和下遊330Kb處位於KANSL1啟動子處的調控元件,這兩個調控元件只在H1單倍型中才與MAPT啟動子發生特異性的交互作用。而在H2單倍型中,染色體倒位區域的兩個邊界區域發生特異性的交互。
圖6. MAPT基因啟動子與遠程調控元件的H1單倍型特異性的遠程交互作用,圖片來源:Nature Genetics
綜上所述,該研究通過結合ATAC-Seq和HiChIP數據,發現了更多與AD和PD相關的 基因,並通過整合多組學數據開發機器學習分類預測非編碼區域SNP的功能,有助於理解非編碼區域的改變對AD和PD的影響。從更廣泛的意義上來講,該工作提出了一種了解疾病遺傳變異的系統方法,同時,由於基因組上非編碼區域的調控機制十分複雜,因此這項工作也為篩選新的治療靶標提供了途徑。
參考資料:
1. Corces, M.R., Shcherbina, A., Kundu, S. et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases. Nat Genet 52, 1158–1168 (2020). https://doi.org/10.1038/s41588-020-00721-x