在過去的幾十年中,人們往往使用高度保守的基因家族進行系統進化分析,採用全基因組序列進行系統進化分析並不普遍。目前,基於是否進行序列的比對,分子系統發生樹的構建分為兩類。其中,不需要進行序列比對的方法是依據K-mer向量計算的距離矩陣進行系統進化分析,大量的研究證實該算法是行之有效的,尤其是對基因組中諸如蛋白編碼序列等的特定區域。不僅如此,K-mer算法還在組學的其他方面,包括基因組組裝、motif預測、重複序列的識別以及基因組的複雜性評估等都受到了廣泛的關注。基於K-mer算法在組學中的重要表現,在這個大規模基因組數據快速積累的時代,構建一個基於K-mer算法易於存儲並且將大量基因組數據可視化處理的資料庫十分迫切。
為此,中國科學院北京基因組研究所基因組科學與信息重點實驗室於軍組和英國倫敦大學學院(UCL)腫瘤研究所王大鵬合作開發了一套基於K-mer算法的基因組組分分析資料庫KGCAK。此項研究於近期發表在Biology Direct 雜誌。
在這個資料庫中,研究人員搜集了Ensembl、Phytozome和NCBI等幾大主流基因組資料庫中包括高等動植物、原生生物、真菌、細菌、病毒等在內的8000多個核基因組或者細胞器基因組,同時包括基因組不同維度的序列,主要有DNA、cDNA、CDS、胺基酸和ncRNA序列。並且還分別計算和存儲了核酸序列(K從2變化到10)和胺基酸序列(K從1變化到5)的K-mer向量,以方便進行不同維度數據跨物種的系統發生樹構建。此外,該資料庫提供了評估不同物種基因組複雜度的交互工具,主要包括基因組基本特徵參數、K-mer向量的數學參數統計、頻率分布、唯一性比率,以及二維和三維空間可視化分析基因組參數和K-mer參數的交互關係等。
總的來說,該資料庫通過捕獲基因組序列特徵並把基因組轉化成更易於理解和可視化的數字K-mer向量,以期通過K-mer算法用可視化的圖形和定量的數據構建一個比較基因組學的平臺,將為系統發生樹構建和通過基因組數據研究物種關係提供良好的參照和指引。
文章連結
KGCAK資料庫中基本功能模塊舉例
在過去的幾十年中,人們往往使用高度保守的基因家族進行系統進化分析,採用全基因組序列進行系統進化分析並不普遍。目前,基於是否進行序列的比對,分子系統發生樹的構建分為兩類。其中,不需要進行序列比對的方法是依據K-mer向量計算的距離矩陣進行系統進化分析,大量的研究證實該算法是行之有效的,尤其是對基因組中諸如蛋白編碼序列等的特定區域。不僅如此,K-mer算法還在組學的其他方面,包括基因組組裝、motif預測、重複序列的識別以及基因組的複雜性評估等都受到了廣泛的關注。基於K-mer算法在組學中的重要表現,在這個大規模基因組數據快速積累的時代,構建一個基於K-mer算法易於存儲並且將大量基因組數據可視化處理的資料庫十分迫切。
為此,中國科學院北京基因組研究所基因組科學與信息重點實驗室於軍組和英國倫敦大學學院(UCL)腫瘤研究所王大鵬合作開發了一套基於K-mer算法的基因組組分分析資料庫KGCAK。此項研究於近期發表在Biology Direct 雜誌。
在這個資料庫中,研究人員搜集了Ensembl、Phytozome和NCBI等幾大主流基因組資料庫中包括高等動植物、原生生物、真菌、細菌、病毒等在內的8000多個核基因組或者細胞器基因組,同時包括基因組不同維度的序列,主要有DNA、cDNA、CDS、胺基酸和ncRNA序列。並且還分別計算和存儲了核酸序列(K從2變化到10)和胺基酸序列(K從1變化到5)的K-mer向量,以方便進行不同維度數據跨物種的系統發生樹構建。此外,該資料庫提供了評估不同物種基因組複雜度的交互工具,主要包括基因組基本特徵參數、K-mer向量的數學參數統計、頻率分布、唯一性比率,以及二維和三維空間可視化分析基因組參數和K-mer參數的交互關係等。
總的來說,該資料庫通過捕獲基因組序列特徵並把基因組轉化成更易於理解和可視化的數字K-mer向量,以期通過K-mer算法用可視化的圖形和定量的數據構建一個比較基因組學的平臺,將為系統發生樹構建和通過基因組數據研究物種關係提供良好的參照和指引。
文章連結
KGCAK資料庫中基本功能模塊舉例