鹿明
生物
蛋白、代謝組學服務專家
關注我們收穫更多
關注
前言
2020年,Fiona A. Hagenbeek, René Pool等研究者在雜誌Nature Communications發表題為「Heritability estimates for 361 blood metabolites across 40 genome-wide association studies」的研究論文。
對2008年11月至2018年10月發布的所有全基因組關聯和外顯子組測序研究進行了綜述,並鑑定了與代謝物水平相關的>800個類別特異性代謝物基因座。研究揭示了不同類別的脂質和有機酸在h2代謝物命中率上的顯著差異。此外,具有高不飽和度的磷脂醯膽鹼比具有低不飽和度的磷脂醯膽鹼具有更高的h2代謝物命中率。這項研究強調了代謝物水平的常見遺傳變異的重要性,並闡明了代謝物類別的遺傳結構。
中文標題:40個全基因組關聯研究中361種血液代謝物的遺傳力估計
研究對象:血樣
發表期刊:Nature Communications
影響因子:12.121
發表時間:2020年1月
運用生物技術:LC–MS代謝組學
研究背景
1.代謝組學的研究領域
①針對疾病的生物學機制研究代謝紊亂的全面概述,可為疾病診斷提供新的治療靶標或新的生物標記物。
②針對性別、年齡、生理效應,行為和生活方式等因素研究代謝物水平的變化。證明遺傳差異可能是代謝組學概況的直接變異來源,也可能是遺傳因素對生理,行為和生活方式產生的間接變異。
2.遺傳影響的代謝物的發展
在人類代謝中常見基因變異的全基因組和代謝組學範圍內的分析已成功鑑定出遺傳影響的代謝物。
2008年,第一個全基因組關聯研究(GWAS;N = 284位參與者)確定了與代謝物水平相關的四個遺傳變異。此後,GWAS隨著樣本量的增加以及在不同的人群中,鑑定了數百種與來自廣泛代謝物類別的代謝物的單核苷酸多態性(SNP)關聯。通過利用外顯子組測序進行低頻和稀有變異分析,已經鑑定出其他代謝物基因座。
3.代謝產物基因座的治療
在2018年10月,對PubMed和Google Scholar進行了搜索,以使用1H-NMR,質譜或基於氣相色譜的方法來鑑定已發表的GWA和外顯子組測序對血樣中代謝組學或脂肪酸代謝的研究。提取了所有研究的全基因組顯著代謝物-SNP關聯,僅包括那些常染色體單核苷酸多態性的觀察結果。
本篇在40項研究中,報告了242,580種代謝物與SNP或代謝物比率與SNP的關聯。這些關聯包括1804個獨特的代謝物或比例和49,231個獨特的SNP。通過不同的基因組構建或dbSNP圖譜報告了49,231個獨特SNP的rsID或染色體鹼基對位置。本文作者將所有SNP提升至HG19構建3764,之後保留了43,830個獨特SNP,所有雙等位基因代謝物SNP均從我們的1000GP3數據中提取,其中不包括295種三烯酸SNP和4256種無法從1000GP3中檢索到的SNP。
3.雙胞胎及家庭成員的遺傳效應研究
本文作者旨在通過分析來自大量雙胞胎和家庭成員的多個代謝組學平臺的數據來進一步了解遺傳因素對空腹血液代謝指標變化的影響(以下簡稱為簡短代謝產物)。作者根據代謝物水平的結果估算代謝物水平的總遺傳方差(h2total),並闡明已知的代謝物類特異性和代謝物類非特異性基因座(h2Metabolite-hits)對代謝物水平的貢獻。作者通過代謝物分類來表徵2008年11月至2018年10月之間發布的所有代謝物-SNP關聯,並使用線性混合模型來同時估算369種代謝物的h2total,h2SNP和h2Metabolite命中值。
研究方法
表2 | 每個代謝組學平臺的參與者特徵
1.遺傳關係矩陣的構建
總共構建了六個加權GRM,對SNP之間的不均勻和遠距離LD進行了校正。通過模擬比較了加權GRM與未加權GRM的使用。其中兩個GRM使用跨平臺估算數據集作為主幹,其他四個GRM基於從1000GP3估算數據中提取的SNP。
2.遺傳力分析
使用GCTA軟體包中實現的混合線性模型來比較三個模型。最終的四變量組成部分模型(包括四個GRM)允許估算由超類特定的重要代謝物基因座和非超類的重要代謝物基因座解釋的變異比例。
3.混合效應元回歸分析
作者測試了所有361種成功分析的代謝物的代謝物類別和代謝組學平臺對遺傳度估計值的調節。作者納入了一個矩陣,將表型相關性和代謝物之間的樣品重疊結合起來作為隨機因素,以校正代謝物和參與者之間的依賴性。
研究結果
1.代謝物分類
在2008年11月至2018年10月期間,進行了40次GWA和外顯子組測序研究,確定了242,580個代謝物-SNP或代謝物比率-SNP的關聯。該數據通過研究列出了重要的SNP-代謝物關聯。這些關聯包括1804個獨特的代謝物或比例和49,231個獨特的SNP。
檢索每種代謝物的人類代謝組資料庫(HMDB),以提取有關代謝物的疏水性和化學分類的信息。作者根據HMDB分類將953種代謝物分為12個超類,43個類或77個亞類。大多數代謝物被分類為超類脂質或有機酸。脂質可分為8類,每類1至95,795個代謝物-SNP關聯(平均值= 17,589;SD = 32,553),並分為32個亞類,亞類代謝物-SNP關聯數範圍為1至40,440(平均值 = 4673;SD = 9124)。有機酸和衍生物分為9類,代謝物-SNP的締合數為1至26,832(平均值= 3374;SD = 3832)。有機酸和衍生物也被分為17種有機酸亞類,代謝物-SNP的亞類數目為1至26,448(平均值= 1786;SD =6371;)。在所有四個平臺上評估了427種代謝產物。在排除比率和未包括在選定代謝物-SNP關聯列表中的超類代謝物之後,可獲得402種代謝物的數據。402種代謝物被分類為336種脂質,53種有機酸,9種有機氧化合物,3種蛋白質和一種有機氮化合物。在本文中,作者保留了這兩個超類中的369種代謝物進行分析。
表1 | 每個獨特代謝物數量概述
2.表徵代謝產物的遺傳影響
可從以下四個代謝組學平臺獲得5117名參與者的數據。參加者在荷蘭雙胞胎註冊(NTR)25中註冊,並聚集在2445個核心家庭中。代謝組學和SNP數據可供所有參與者使用。表2顯示了樣本的背景和人口統計學特徵。
作者評估由先前確定的代謝物GWAS和(獨立)樣本中的外顯子測序遺傳變異解釋的方差。作者的結果取決於過去的研究成果,因為代謝物遺傳變異的列表是基於以前的GWA和外顯子組測序研究得出的,但這些研究的效力有所不同。
線性混合模型在單個遺傳相關性矩陣(GRM)中包括與代謝物相關的遺傳變異的所有基因座的線性混合模型將包含與某些代謝物相關但不與其他代謝物相關的SNP,或包括與特定代謝物不相關的許多SNP。
因此,作者為與代謝物命中點相關的基因座創建了兩個GRM:一個特定於類別,一個非特定於類別。作者探索了12種特定於類別和相應的非特定於類別的GRM的模型。這些模型顯示出高度的不收斂性(總計37.9%),其中包括小型類特定GRM的模型顯示出更高的不收斂性。因此,本文其餘部分的結果是基於代謝物的超類,即脂質和有機酸。
圖1 | 四方差分量模型概述
對於369種脂質和有機酸,作者進行了無約束的四方差成分分析。在全基因組複雜性狀分析(GCTA)18中,作者指定了一個模型。在該模型中,我們將代謝物變異分為SNP相關(h2SNP),譜系相關(h2ped),特定類別代謝物位置相關(h2class-hits) ,以及與非分類代謝物定位相關(h2notclass-hits)的遺傳變異。作者報告了總遺傳力(h2total),可歸因於代謝物超類特定基因座的比例(h2Class-hits),非超類代謝物基因座的方差比例(h2Notclass-hits)以及已知代謝物基因座對代謝物水平的貢獻 (h2Metabolite-hits)。
在兩組分析中分別使用類特異性和相應的非類GRM分別對脂質和有機酸進行了分析。脂質分析採用了479個脂質基因座的類特異性GRM和596個基因座的相應非類GRM。有機酸分析包括397個基因座的特定類別GRM和683個基因座的非特定GRM。在分析之前,將代謝物數據標準化。所有模型均包括抽血年齡,性別,來自SNP基因型數據的前十個主要成分(PC),基因分型晶片和代謝組學測量批次作為協變量。
平均而言,脂質和有機酸的h2類均高於h2Notclass,脂質的h2Class命中率範圍為-0.02至0.16,有機酸的h2Class命中率範圍為-0.04至0.14。對於脂質和有機酸,h2Notclass-hits為零,對於脂質而言,範圍為-0.06至0.12,對於有機酸而言,範圍為-0.06至0.05(表3)
表3 | 四種方差分量模型的遺傳力估計綜述
包括多個代謝組學平臺,可以比較在多個平臺上測量的代謝物。一項較早的研究表明,在兩個平臺上存在的43種代謝產物中有29種在兩個平臺上均表現出中等遺傳力28。在本研究中,在多個平臺上測量了61種代謝物,每個平臺上的h2total均為中等,在不同平臺上評估的同一代謝物的h2total平均值平均為0.36。
3.代謝物類別之間的遺傳力差異
圖2 | 52種羧酸的遺傳力
上圖顯示了以下幾種有機酸之間的中位遺傳力差異:酮酸,羥基酸和羧酸。酮酸,其次是羧酸,具有最高的中位數h2total和h2Class-hits估計值。羥酸的h2Notclass命中值和h2Metabolite命中值最高,而這些代謝物的h2total和h2Class命中值最低。為了調查遺傳力在有機酸類別之間是否存在顯著差異,作者應用了多元混合效應元回歸,對代謝物平臺效應進行了校正。多元混合效應元回歸模型顯示,有機酸類別的h2total和h2Class-hits沒有顯著差異。然而,對於h2Metabolite-hits估計,用多元混合效應元回歸模型觀察到有機酸類別之間的顯著差異。
表4 | 必需胺基酸和非必需胺基酸遺傳力估計綜述
作者使用多元混合效應元回歸來評估必需胺基酸和非必需胺基酸和脂質類別之間的遺傳力差異的重要性。回歸分析顯示必需胺基酸和非必需胺基酸之間沒有顯著的均值差異。在多元類脂之間,採用多元混合效應回歸模型觀察到的平均遺傳力差異很小。對於脂質類別,h2代謝物命中估計值有顯著差異。
圖3 | 309種脂類的遺傳力分析
最後,作者探討了磷脂醯膽鹼和TG的遺傳力隨著脂肪醯基側鏈中碳原子數或雙鍵數量的增加而增加。為此,作者分別針對TG,二醯基磷脂醯膽鹼(PCaa)和醯基烷基磷脂醯膽鹼分別採用單變量和多元混合元回歸模型。描述了每種脂質種類的平臺特異性遺傳力估計值。多元混合效應元回歸模型顯示,碳原子和雙鍵數量的變化與PCaa的h2代謝物命中率估計值顯著相關。碳原子數較多的磷脂醯膽鹼的遺傳力估計值較低,而雙鍵數目較大的磷脂醯膽鹼的遺傳力估計值較高。碳原子數或雙鍵數目可變的磷脂醯膽鹼之間的差異可能是造成h2Class估計值差異的原因。單變量模型證實了PCaa和PCae中雙鍵數量的結果。
研究結論
作者對GWAS代謝組學研究進行了全面評估,並建立了所有研究報告庫,這些報告報告了歐洲血統樣本中SNP與血液代謝產物的關係。作者策劃了241,965個全基因組代謝物關聯,並將相關代謝物分為超類,超類和亞類。提供了所有血液代謝物-SNP關聯的完整概述。
作者對來自該信息庫的信息用於構建GRM,這些信息可用於鑑定遺傳分析中的遺傳變異成分。369種代謝產物。隨著研究中的代謝物數據來自在四個代謝組學平臺上測量的大量雙胞胎隊列(N = 5117),聚集在2445個家庭中作者專注於兩個代謝物超級類。通過將所有代謝物映射到HMDB2,能夠將測得的代謝物和所有先前發表的代謝物分類為脂質或有機酸。在當前的研究中,作者試圖基於十年的GWA和外顯子組測序研究來闡明已知代謝物基因座對代謝物水平(h2代謝物命中率)的貢獻。作者研究的一個獨特特徵是能夠區分特定類別(h2Class-hits)和非類別(h2Notclass-hits)代謝物基因座對代謝物類別和脂質種類之間遺傳力差異的作用。
為了評估h2total估算值中代謝物類別和脂質種類之間的差異:
1.作者將多元混合效應元回歸模型應用於h2Metabolite-hits,h2Class-hits和h2Notclass-hits的估算值。觀察到代謝物類別之間的h2total估計值無顯著差異。
2.與先前的雙胞胎研究一致,必需胺基酸和非必需胺基酸之間的遺傳力估計均無顯著差異。觀察到了不同類別的有機酸之間的明顯的h2Metabolite-hits差異。
3.與羧酸相比,酮酸的h2代謝物命中率估計值低得多。脂肪醯基,脂蛋白和類固醇的類別特異性代謝物基因座遺傳度估計值明顯更高。
同樣,據報導,脂質類遺傳力的顯著異質性,磷脂的h2total和h2SNP低於鞘脂或甘油脂。最後,作者評估了遺傳性是否隨著脂質種類的增加複雜性而增加。作者發現,在更複雜的二醯基和醯基烷基磷脂醯膽鹼中,h2代謝物命中率的估計是這種情況,但對於更複雜的TG而言,情況並非如此。先前的研究報導,多不飽和脂肪酸脂質中的h2SNP估計值顯著更高。
此外,與傳統脂質測量相關的基因座可解釋2–21%的脂質水平差異。這些結果共同表明,磷脂醯膽鹼中較高的遺傳力是由較少數量的碳原子和較高數量的雙鍵(例如較大的不飽和度)驅動的。
通過評估脂質和有機酸之間的平均遺傳力差異,看來脂質比有機酸具有更高的h2total,h2Class-hits和h2Metabolite-hits估計值。先前的雙胞胎研究表明,很少研究脂質和有機酸之間的遺傳力差異。這可能是因為大多數代謝組學平臺主要關注脂質或有機酸。脂質代謝物類別在代謝組學平臺上趨於很好地代表,而有機酸則沒有代表,因此,由於這種失衡,獲得有機酸的h2Class-hits和h2Metabolite-hits估計值的分析將得不到足夠的支持。
當前的研究有幾個局限性。
1.首先,我們的發現在多大程度上可以歸結為非歐洲血統。人類常見的代謝途徑的基因座最有可能在不同種族之間複製。
2.其次,當基於來自密切相關個體(例如,第一親或近親)的數據時,所解釋的總方差的估計可能顯示出向上的偏倚19,20。這種偏見是由共同的環境影響,上位相互作用或主導地位19,20的影響引起的。雖然目前的研究結果可能會由於包括雙胞胎,兄弟姐妹和父母而遭受這種偏見,但樣本中還包括許多無關的個體,這些個體將減少可能的偏見。
本文採用經典雙胞胎設計研究了Nightingale Health 1H-NMR平臺的217種代謝物,並報導了6.45%代謝物的顯性作用。針對非加性遺傳效應進行了GWA研究,並得出結論,對代謝物水平和比例的大多數遺傳效應實際上是加和的。總之,這些研究表明,由於對代謝物水平的顯性影響,偏倚將很小。
最後,對h2代謝物命中率的估算基於GWA十年和外顯子組測序研究中40項不同研究的SNP。這些研究的樣本量和功效均不同,其中一些研究僅涉及211個人,而另一些研究則包括24,000多個人。對於代表性不足的代謝物,低功率可能會導致遺傳性估計值有偏差。但是,利用來自40項研究的十年研究中的信息並從多個研究中提取代謝物類別的基因座,此類代謝物的數量並不大。New29,36,37,38和未來的研究將增加被鑑定為代謝產物基因座的變異體的數量。預計對英國生物庫39的投資將大大增加用於人類代謝組以及隨後的代謝產物基因座數量的大規模基因組研究的樣本量。