《自然》:迄今最大規模人類遺傳變異資料庫公布,將破解基因功能...

2020-12-07 騰訊網

人類基因組中大多數基因的生理功能仍然未知。與許多工程和科學領域一樣,在生物學中,打破複雜系統的各個組成部分可以提供對該系統的結構和行為的寶貴見解。

儘管對模型生物和人類細胞系的研究對於破譯許多人類基因的功能至關重要,但它們仍是人類生理學的不完美代表。

而這種「不完整」的局面將會停止:5月27日,國際頂級期刊《自然》共發表了6篇Nature(4篇研究論文),1篇Nature Medicine,2篇Nature Communications細緻闡述了研究人員們在這一方面獲得的最新裡程碑式突破。

他們對這種豐富資源的分析創建了一個目錄,列出了目前存在的不同類型的變異,並揭示了其潛在的功能影響以及該信息如何幫助識別引起疾病的突變並確定潛在的藥物靶標的優先級。

在第一篇論文中,Ryan L. Collins等研究人員將來自人類測序研究的125,748個外顯子組和15,708個基因組的聚合描述到基因組聚合資料庫(gnomAD)中。在篩選出由測序和注釋錯誤引起的假象後,研究人員在該隊列中確定了443,769個高可信度預測的功能喪失變異。

使用改良的人類突變率模型,研究人員們沿著代表滅活耐受性的光譜對人類蛋白質編碼基因進行分類,使用來自模型生物和工程化人類細胞的數據驗證該分類,並證明其可用於提高常見和罕見疾病的基因發現。

圖1:141,456個外顯子組和基因組序列的匯總。

第二篇Eric Vallabh Minikel等人的研究則報告了有關使用人類功能喪失型變體評估候選藥物靶標的三個關鍵發現。

另外,Ryan L. Collins等人題為「A structural variation reference for medical and population genetics」的研究,則介紹了gnomAD中由全球不同群體(54%非歐洲人)的14,891個基因組構建的序列解析SV的參考。該研究發現了433,371個SV的豐富而複雜的景觀,據此估計SV佔每個基因組所有罕見蛋白質截短事件的25–29%。

外顯子組和基因組測序項目,揭示了人類pLOF天然變化的驚人負擔,其中包括停止獲得的必需剪接和移碼變體,它們可以用作滅活人類基因的自然模型。通過數十年來對嚴重孟德爾疾病的遺傳基礎的研究,此類變異已經揭示了許多有關人類生物學和疾病機制的信息,其中大多數是由雜合或純合狀態的破壞性變異驅動的。這些變體還被證明對鑑定潛在的治療靶點有價值:已確認的PCSK9基因中的LoF變體與低水平的低密度脂蛋白膽固醇6有因果關係,並最終導致了目前臨床上幾種PCSK9抑制劑的開發。用於減少心血管疾病的風險。對人類pLoF變體的系統分類以及對失活耐受性譜的基因分類將為醫學遺傳學,鑑定候選致病突變,潛在的治療靶點等提供寶貴的資源人類基因。

高質量的基因變化「圖譜」

匯總了來自199,558位個體的全外顯子組測序數據和來自20,314位個體的全基因組測序數據。這些數據主要來自對成人常見疾病(包括心血管疾病、2型糖尿病和精神疾病)的病例對照研究。統一處理每個數據集,分別總計超過1.3和1.6 PB的原始測序數據,使用標準化的BWA-Picard-GATK管道18對每個數據集執行聯合變體調用,並使用Hail19進行所有數據處理和分析。

最終的gnomAD版本包含來自125,748個外顯子組和15,708個基因組的遺傳變異,這些變異來自具有高質量序列數據的獨特無親緣個體,跨越6個全球和8個次大陸祖先。研究人員們還提供了gnomAD數據集的子集,這些子集不包括病例對照研究中的病例,或者某些特殊疾病類型(例如癌症和神經系統疾病)的病例。

在這些個體中,他們分別在外顯子組和基因組數據集中發現了1,720萬個和2.619億個變體。然後使用隨機森林的訓練過程,將這些變體過濾掉了1,490萬和2.299億個高質量變體。通過樣本對比,結果顯示這一篩選過濾實現了非常高的精度(單核苷酸變異(SNV)超過99%,外顯子組和基因組中插入缺失的98.5%以上)和召回率(單基因組和基因組的SNV超過90%,indel超過82%)。此外,他們分別利用了外顯子組和基因組調用集中包含的4,568和212個三重奏的數據來評估我們稀有變體的質量。他們發現模型在20號染色體(未用於模型訓練)上保留了超過97.8%的已傳播單子(不相關個體中的子代已傳給後代)。

這些變體反映了基於突變和選擇的預期模式:研究觀察到84.9%的所有可能的持續甲基化CpG到TpG過渡,這些過渡會在人類外顯子組中產生同義變體,這表明在此樣本量下,他們開始研究這種高度可變且選擇不佳的變異類別的突變飽和度。但是,僅觀察到52%的甲基化CpG終止獲得的變體,這說明自然選擇的作用是從種群中去除了大部分破壞基因的變體。在所有突變背景下,在外顯子組數據集中僅分別觀察到11.5%和3.7%的可能同義和終止獲得的變體,這表明當前樣本量與捕獲人類外顯子組的完整突變飽和度相去甚遠。

人類基因的LoF不耐受性

正如大量pLoF變體可用於識別LoF耐性基因一樣,可以通過鑑定預測的LoF變異的顯著消耗來反過來表徵基因對失活的不耐受性。研究人員們提出了一個完善的突變模型,該模型結合了甲基化,基本水平覆蓋校正和LOFTEE,以預測在中性條件下的預期變異水平。在此更新的模型下,可以準確捕獲觀察到的同義變體數量的變化(r = 0.979)。然後,他們通過比較觀察到的pLoF變體的數量與我們預期的來自125,748個人的gnomAD外顯子組數據中的pLoF變體的數量,來檢測pLoF變異的耗竭-是以前最大的外顯子組集合ExAC的樣本量的兩倍多。對於該數據集,總共計算了每個基因17.9個預期的pLoF變異體的中位數,發現72.1%的基因具有10個以上的pLoF變異體(有可能被分類為最受限制的基因),分別比ExAC的13.2%和62.8%有所增加。

結果發現,不受約束的基因對失活具有相對的耐受性,包括許多含有純合pLoF變異體的基因。

圖2:生成高可信度的pLoF變體集。

圖3:pLoF影響的功能範圍。

編譯/前瞻經濟學人APP資訊組

相關焦點

  • 迄今最大規模人類遺傳變異體目錄公布 有助深入認識基因功能發現...
    迄今最大規模人類遺傳變異體目錄公布有助深入認識基因功能 發現疾病相關基因141456個外顯子組和基因組序列的匯總(圖a)。圖片來源:《自然》網站英國《自然》《自然·通訊》《自然·醫學》雜誌近日同時發表來自多家研究機構的一系列報告,集中描述了對一個匯集了逾14萬人樣本的資料庫——基因組聚集資料庫(gnomAD)的應用,該資料庫擁有迄今最大規模的人類遺傳變異體公開目錄,是我們深入認識人類基因功能、發現新疾病相關基因的寶貴資源。
  • 《自然》重磅!迄今最大規模人類遺傳變異資料庫公布,將破解基因...
    人類基因組中大多數基因的生理功能仍然未知。與許多工程和科學領域一樣,在生物學中,打破複雜系統的各個組成部分可以提供對該系統的結構和行為的寶貴見解。儘管對模型生物和人類細胞系的研究對於破譯許多人類基因的功能至關重要,但它們仍是人類生理學的不完美代表。
  • 迄今最大規模人類遺傳變異體目錄公布,有助發現新疾病基因
    圖片來源:《自然》網站英國《自然》《自然·通訊》《自然·醫學》雜誌近日同時發表來自多家研究機構的一系列報告,集中描述了對一個匯集了逾14萬人樣本的資料庫——基因組聚集資料庫(gnomAD)的應用,該資料庫擁有迄今最大規模的人類遺傳變異體公開目錄,是我們深入認識人類基因功能、發現新疾病相關基因的寶貴資源。
  • Nature發布迄今最大規模人類遺傳變異資料庫
    據悉,這份匯集了逾14萬人的公開目錄,是迄今為止最大規模的人體遺傳變異體資料庫,將有助於人們深入了解人類基因功能,增強對罕見和常見遺傳病的理解。基因組聚集資料庫(gnomAD)項目是一個大規模的人類遺傳變異體資料庫,通過各種大型人群測序項目匯集數據,來鑑定各種功能喪失型變異體。
  • 《自然》發表人類遺傳變異體大型資料庫研究成果
    新華社倫敦5月27日電(記者張家偉)英國《自然》雜誌及其子刊27日在線發表了基因組聚集資料庫(gnomAD)團隊的系列研究論文,介紹了研究人員對這個大型資料庫的多方面分析,其結果有助人們深入認識人類基因功能,提升對罕見和常見遺傳病的理解。基因組聚集資料庫(gnomAD)是一個大規模的人類遺傳變異體資料庫,匯集了來自不同人群的外顯子組數據和全基因組數據,全球多國研究人員參與分析。
  • 最大人類基因變異資料庫解析突變奧秘
    【環球科技報導記者程君秋】據臺灣「中央社」8月18日報導,科學家17日公布至今匯集的最大人類基因變異資料庫,凸顯出若干被錯怪導致罕見疾病的基因突變,以及可能對疾病扮演意想不到角色的其他突變。據報導,多達100人的研究團隊2年前建立外顯子組(exome)超過1000萬變異的資料庫。外顯子組僅是人類基因組的一小部份,佔DNA的不到2%,但具關鍵重要性。外顯子組由基因編碼部位組成,即DNA的蛋白質表現區,發生錯誤會引發串聯式效應,導致疾病。
  • 學術頭條:疑似動物傳人新冠病例出現,最大規模人類遺傳變異資料庫...
    疑似動物傳人新冠病例出現 荷蘭工人被水貂感染世衛組織周二表示,荷蘭工人顯然是被水貂感染了冠狀病毒,這可能是首例已知的動物傳染給人類的病例。世衛組織表示,該組織正與荷蘭研究人員密切接觸,調查3起疑似由水貂傳染給人類的病例。「這將是首個已知的動物向人類傳播的病例,」聯合國衛生機構表示。「但我們仍在收集和審查更多的數據,以了解動物和寵物是否會傳播疾病。」
  • 迄今為止最全面的人類蛋白質編碼區遺傳變異記錄
    一項關於人類基因組外顯子組(蛋白質編碼區)的深度分析提供了迄今為止有關該區域最全面的遺傳變異記錄。登上本周《自然》雜誌封面的研究 Analysis of protein-coding genetic variation in 60,706 humans 被認為有助於從臨床發現與人類疾病相關的遺傳變異。
  • NCI發布最大規模癌症相關基因變異資料庫
    2013年7月16日訊 /生物谷BIOON/ --美國國家癌症研究所(NCI)科學家發布了有史以來規模最大的癌症相關基因變異資料庫,為研究者們提供了迄今為止最全面的方式,搞清楚如何將治療藥物靶向疾病。周一NCI在一份聲明中稱,基於基因組學研究的新資料庫,將對全球開放獲取,預計將有助於研究人員加快新藥的開發,同時能夠更好地將患者與療法進行匹配。當前所使用的大多數抗癌藥物,都是基於其實證作用(empirical activity)。其中的大多數藥物,我們知道存在作用靶標,但這些藥物並沒有與任何基因組學聯繫起來。
  • 迄今最大規模人類嗅覺GWAS揭示基因變異可影響對魚腥味的感知
    事實上,我們感知氣味的能力是通過855個嗅覺受體基因編碼的嗅覺受體(OR)實現的。OR基因的特徵是異常高的DNA序列多樣性,這會引起個體氣味感知和行為上的差異。但人類中約有一半OR基因被認為功能缺乏,只有約400個OR基因表現出活性。
  • Cell:構建出人類免疫細胞圖譜,可確定遺傳變異對基因表達的影響
    2018年11月18日/生物谷BIOON/---比較任何兩個人的DNA,你會發現他們的遺傳密碼中的數百萬個位點存在著不同。如今,在一項新的研究中,來自美國拉霍亞免疫學研究所(LJI)的研究人員分享了大量數據,這些數據對於破譯這種自然遺傳變異如何影響免疫系統保護我們健康的能力至關重要。
  • 迄今為止最全面的人類蛋白質編碼區遺傳變異記錄 本周Nature封面研究
  • 全基因組單核苷酸變異資料庫建立
    有助推動我國及周邊國家人群的進化遺傳和醫學研究 中國科學院上海營養與健康研究所/馬普計算生物學研究所徐書華團隊新近建立的全基因組單核苷酸變異資料庫(PGG.SNV),收集了超過20萬個基因組,涵蓋了800多個現存人類族群和來源於古DNA研究的100多個已消亡人類族群,
  • 規模最大人類器官轉錄組計劃公布第三階段成果 ——來自死亡個體的...
    原標題:規模最大人類器官轉錄組計劃公布第三階段成果 ——來自死亡個體的樣本 幫我們讀懂疾病背後的基因密碼人與人的基因序列中99.9%以上是相同的,僅有不到0.1%差異,可是為什麼我們卻如此不同?人們經常把人類基因組序列(30億對鹼基)比喻成一部60億字的天書,人類基因組計劃的測序,只是把天書變成「明文」,人類卻仍舊看不懂這些文字所表達的意思。一個名叫「基因型—組織表達」(以下簡稱GTEx)的大型研究項目試圖尋找答案——即找到序列與實際性狀(疾病)的關係,確定不同基因究竟如何影響表達。GTEx計劃是現有規模最大的人類器官轉錄組研究計劃。
  • 揭開人類基因組變異研究新時代
    圖3 對不同人種中大規模外顯子組與基因組數據的聚合分析使蛋白質編碼基因失活的遺傳變異是基因功能破壞後產生表型並可供分析的信息來源。對生物體的功能至關重要的基因將在自然種群中失去這種變異,而非必需的基因將容忍基因遺傳變異的積累。
  • 最大規模中國人基因組測序和分析完成
    近日,國際頂級學術期刊《細胞》,發表了迄今為止最大規模的中國人基因組學大數據研究成果。
  • 最大規模!中國人基因庫研究首發,日本與中國北方漢族人群聚類完全...
    生、長、衰、病、老、死,一切都與基因有關。不同地域和民族的人,其基因也千差萬別。鑑於此,最大規模的中國人基因庫研究結果於近日首次發表——上海交通大學醫學院附屬瑞金醫院內分泌科聯合全國 29 家研究機構、醫院,首次公布了來自 27 個省、直轄市 8 個民族的 1 萬餘人的高深度全基因組測序數據及表型的系統性分析結果。
  • 從gnomAD 人群變異數據中研究基因功能
    隨著科技的進步和分子遺傳學的發展,人們對基因功能有了越來越多的了解。但是截至目前,大多數的基因功能還是未知的。
  • 世界最大人類基因數據集將免費對外開放
    這些數據總量達到200TB,是世界上最大的人類基因變異數據集。
  • 免費祖源基因檢測培育市場「23魔方」蓄力打造國內最大基因資料庫
    基因作為20世紀最偉大的科學發現之一,一直被科學家們認為是解密生命密碼的重要途徑,特別是人類首次發現DNA雙螺旋結構以後,進一步認識了基因的本質,即基因是具有遺傳效應的DNA片段。邁入新世紀,基因學的發展可謂是突飛猛進,基因技術已經不再是停留在生化實驗室裡的研究項目,而是成為了一門真正可以服務以人類健康的實用型技術。從全球範圍來看,2010-2017年,消費級基因測序市場規模逐年擴張,年均複合增速高達22.79%。2018年,全球基因測序市場仍繼續保持增長,保守估計市場規模在117億美元左右。