人類基因組中大多數基因的生理功能仍然未知。與許多工程和科學領域一樣,在生物學中,打破複雜系統的各個組成部分可以提供對該系統的結構和行為的寶貴見解。
儘管對模型生物和人類細胞系的研究對於破譯許多人類基因的功能至關重要,但它們仍是人類生理學的不完美代表。
而這種「不完整」的局面將會停止:5月27日,國際頂級期刊《自然》共發表了6篇Nature(4篇研究論文),1篇Nature Medicine,2篇Nature Communications細緻闡述了研究人員們在這一方面獲得的最新裡程碑式突破。
他們對這種豐富資源的分析創建了一個目錄,列出了目前存在的不同類型的變異,並揭示了其潛在的功能影響以及該信息如何幫助識別引起疾病的突變並確定潛在的藥物靶標的優先級。
在第一篇論文中,Ryan L. Collins等研究人員將來自人類測序研究的125,748個外顯子組和15,708個基因組的聚合描述到基因組聚合資料庫(gnomAD)中。在篩選出由測序和注釋錯誤引起的假象後,研究人員在該隊列中確定了443,769個高可信度預測的功能喪失變異。
使用改良的人類突變率模型,研究人員們沿著代表滅活耐受性的光譜對人類蛋白質編碼基因進行分類,使用來自模型生物和工程化人類細胞的數據驗證該分類,並證明其可用於提高常見和罕見疾病的基因發現。
圖1:141,456個外顯子組和基因組序列的匯總。
第二篇Eric Vallabh Minikel等人的研究則報告了有關使用人類功能喪失型變體評估候選藥物靶標的三個關鍵發現。
另外,Ryan L. Collins等人題為「A structural variation reference for medical and population genetics」的研究,則介紹了gnomAD中由全球不同群體(54%非歐洲人)的14,891個基因組構建的序列解析SV的參考。該研究發現了433,371個SV的豐富而複雜的景觀,據此估計SV佔每個基因組所有罕見蛋白質截短事件的25–29%。
外顯子組和基因組測序項目,揭示了人類pLOF天然變化的驚人負擔,其中包括停止獲得的必需剪接和移碼變體,它們可以用作滅活人類基因的自然模型。通過數十年來對嚴重孟德爾疾病的遺傳基礎的研究,此類變異已經揭示了許多有關人類生物學和疾病機制的信息,其中大多數是由雜合或純合狀態的破壞性變異驅動的。這些變體還被證明對鑑定潛在的治療靶點有價值:已確認的PCSK9基因中的LoF變體與低水平的低密度脂蛋白膽固醇6有因果關係,並最終導致了目前臨床上幾種PCSK9抑制劑的開發。用於減少心血管疾病的風險。對人類pLoF變體的系統分類以及對失活耐受性譜的基因分類將為醫學遺傳學,鑑定候選致病突變,潛在的治療靶點等提供寶貴的資源人類基因。
高質量的基因變化「圖譜」
匯總了來自199,558位個體的全外顯子組測序數據和來自20,314位個體的全基因組測序數據。這些數據主要來自對成人常見疾病(包括心血管疾病、2型糖尿病和精神疾病)的病例對照研究。統一處理每個數據集,分別總計超過1.3和1.6 PB的原始測序數據,使用標準化的BWA-Picard-GATK管道18對每個數據集執行聯合變體調用,並使用Hail19進行所有數據處理和分析。
最終的gnomAD版本包含來自125,748個外顯子組和15,708個基因組的遺傳變異,這些變異來自具有高質量序列數據的獨特無親緣個體,跨越6個全球和8個次大陸祖先。研究人員們還提供了gnomAD數據集的子集,這些子集不包括病例對照研究中的病例,或者某些特殊疾病類型(例如癌症和神經系統疾病)的病例。
在這些個體中,他們分別在外顯子組和基因組數據集中發現了1,720萬個和2.619億個變體。然後使用隨機森林的訓練過程,將這些變體過濾掉了1,490萬和2.299億個高質量變體。通過樣本對比,結果顯示這一篩選過濾實現了非常高的精度(單核苷酸變異(SNV)超過99%,外顯子組和基因組中插入缺失的98.5%以上)和召回率(單基因組和基因組的SNV超過90%,indel超過82%)。此外,他們分別利用了外顯子組和基因組調用集中包含的4,568和212個三重奏的數據來評估我們稀有變體的質量。他們發現模型在20號染色體(未用於模型訓練)上保留了超過97.8%的已傳播單子(不相關個體中的子代已傳給後代)。
這些變體反映了基於突變和選擇的預期模式:研究觀察到84.9%的所有可能的持續甲基化CpG到TpG過渡,這些過渡會在人類外顯子組中產生同義變體,這表明在此樣本量下,他們開始研究這種高度可變且選擇不佳的變異類別的突變飽和度。但是,僅觀察到52%的甲基化CpG終止獲得的變體,這說明自然選擇的作用是從種群中去除了大部分破壞基因的變體。在所有突變背景下,在外顯子組數據集中僅分別觀察到11.5%和3.7%的可能同義和終止獲得的變體,這表明當前樣本量與捕獲人類外顯子組的完整突變飽和度相去甚遠。
人類基因的LoF不耐受性
正如大量pLoF變體可用於識別LoF耐性基因一樣,可以通過鑑定預測的LoF變異的顯著消耗來反過來表徵基因對失活的不耐受性。研究人員們提出了一個完善的突變模型,該模型結合了甲基化,基本水平覆蓋校正和LOFTEE,以預測在中性條件下的預期變異水平。在此更新的模型下,可以準確捕獲觀察到的同義變體數量的變化(r = 0.979)。然後,他們通過比較觀察到的pLoF變體的數量與我們預期的來自125,748個人的gnomAD外顯子組數據中的pLoF變體的數量,來檢測pLoF變異的耗竭-是以前最大的外顯子組集合ExAC的樣本量的兩倍多。對於該數據集,總共計算了每個基因17.9個預期的pLoF變異體的中位數,發現72.1%的基因具有10個以上的pLoF變異體(有可能被分類為最受限制的基因),分別比ExAC的13.2%和62.8%有所增加。
結果發現,不受約束的基因對失活具有相對的耐受性,包括許多含有純合pLoF變異體的基因。
圖2:生成高可信度的pLoF變體集。
圖3:pLoF影響的功能範圍。
編譯/前瞻經濟學人APP資訊組