北京基因組所等開發完成基於K-mer的基因組組分分析資料庫

2021-01-11 中國科學院

  在過去的幾十年中,人們往往使用高度保守的基因家族進行系統進化分析,採用全基因組序列進行系統進化分析並不普遍。目前,基於是否進行序列的比對,分子系統發生樹的構建分為兩類。其中,不需要進行序列比對的方法是依據K-mer向量計算的距離矩陣進行系統進化分析,大量的研究證實該算法是行之有效的,尤其是對基因組中諸如蛋白編碼序列等的特定區域。不僅如此,K-mer算法還在組學的其他方面,包括基因組組裝、motif預測、重複序列的識別以及基因組的複雜性評估等都受到了廣泛的關注。基於K-mer算法在組學中的重要表現,在這個大規模基因組數據快速積累的時代,構建一個基於K-mer算法易於存儲並且將大量基因組數據可視化處理的資料庫十分迫切。

  為此,中國科學院北京基因組研究所基因組科學與信息重點實驗室於軍組和英國倫敦大學學院(UCL)腫瘤研究所王大鵬合作開發了一套基於K-mer算法的基因組組分分析資料庫KGCAK。此項研究於近期發表在Biology Direct 雜誌。

  在這個資料庫中,研究人員搜集了Ensembl、Phytozome和NCBI等幾大主流基因組資料庫中包括高等動植物、原生生物、真菌、細菌、病毒等在內的8000多個核基因組或者細胞器基因組,同時包括基因組不同維度的序列,主要有DNA、cDNA、CDS、胺基酸和ncRNA序列。並且還分別計算和存儲了核酸序列(K從2變化到10)和胺基酸序列(K從1變化到5)的K-mer向量,以方便進行不同維度數據跨物種的系統發生樹構建。此外,該資料庫提供了評估不同物種基因組複雜度的交互工具,主要包括基因組基本特徵參數、K-mer向量的數學參數統計、頻率分布、唯一性比率,以及二維和三維空間可視化分析基因組參數和K-mer參數的交互關係等。

  總的來說,該資料庫通過捕獲基因組序列特徵並把基因組轉化成更易於理解和可視化的數字K-mer向量,以期通過K-mer算法用可視化的圖形和定量的數據構建一個比較基因組學的平臺,將為系統發生樹構建和通過基因組數據研究物種關係提供良好的參照和指引。

    文章連結

 

KGCAK資料庫中基本功能模塊舉例 

  在過去的幾十年中,人們往往使用高度保守的基因家族進行系統進化分析,採用全基因組序列進行系統進化分析並不普遍。目前,基於是否進行序列的比對,分子系統發生樹的構建分為兩類。其中,不需要進行序列比對的方法是依據K-mer向量計算的距離矩陣進行系統進化分析,大量的研究證實該算法是行之有效的,尤其是對基因組中諸如蛋白編碼序列等的特定區域。不僅如此,K-mer算法還在組學的其他方面,包括基因組組裝、motif預測、重複序列的識別以及基因組的複雜性評估等都受到了廣泛的關注。基於K-mer算法在組學中的重要表現,在這個大規模基因組數據快速積累的時代,構建一個基於K-mer算法易於存儲並且將大量基因組數據可視化處理的資料庫十分迫切。
  為此,中國科學院北京基因組研究所基因組科學與信息重點實驗室於軍組和英國倫敦大學學院(UCL)腫瘤研究所王大鵬合作開發了一套基於K-mer算法的基因組組分分析資料庫KGCAK。此項研究於近期發表在Biology Direct 雜誌。
  在這個資料庫中,研究人員搜集了Ensembl、Phytozome和NCBI等幾大主流基因組資料庫中包括高等動植物、原生生物、真菌、細菌、病毒等在內的8000多個核基因組或者細胞器基因組,同時包括基因組不同維度的序列,主要有DNA、cDNA、CDS、胺基酸和ncRNA序列。並且還分別計算和存儲了核酸序列(K從2變化到10)和胺基酸序列(K從1變化到5)的K-mer向量,以方便進行不同維度數據跨物種的系統發生樹構建。此外,該資料庫提供了評估不同物種基因組複雜度的交互工具,主要包括基因組基本特徵參數、K-mer向量的數學參數統計、頻率分布、唯一性比率,以及二維和三維空間可視化分析基因組參數和K-mer參數的交互關係等。
  總的來說,該資料庫通過捕獲基因組序列特徵並把基因組轉化成更易於理解和可視化的數字K-mer向量,以期通過K-mer算法用可視化的圖形和定量的數據構建一個比較基因組學的平臺,將為系統發生樹構建和通過基因組數據研究物種關係提供良好的參照和指引。
    文章連結
 
KGCAK資料庫中基本功能模塊舉例 

相關焦點

  • 泛基因組資料庫:找到油菜的「好基因」
    「現有的研究數據表明,甘藍型油菜基因組中7成以上基因都存在大的遺傳變異,也就是通常所說的結構變異。換句話說,對於油菜這樣的年輕多倍體物種,單一參考基因組往往無法很好地包含物種內豐富的遺傳變異信息。」楊慶勇進一步解釋道。如何系統挖掘和揭示甘藍型油菜的遺傳變異?
  • 我國建成全球第四個綜合基因組權威資料庫
    人民網北京12月20日電(趙竹青)近日,中國科學院北京基因組研究所生命與健康大數據中心團隊題為「The BIG Data Center: from deposition to integration to translation」(北京基因組研究所生命與健康大數據中心:從存儲到整合
  • 泛基因組資料庫:找到油菜的「好基因」—新聞—科學網
    「現有的研究數據表明,甘藍型油菜基因組中7成以上基因都存在大的遺傳變異,也就是通常所說的結構變異。換句話說,對於油菜這樣的年輕多倍體物種,單一參考基因組往往無法很好地包含物種內豐富的遺傳變異信息。」楊慶勇進一步解釋道。 如何系統挖掘和揭示甘藍型油菜的遺傳變異?
  • 動物所建立靈長類特異新基因資料庫並系統預測新基因功能
    中國科學院動物研究所張勇課題組通過整合進化基因組和功能基因組數據開發了人類新基因資料庫(GenTree, http://gentree.ioz.ac.cn)。GenTree可輔助用戶分析基因何時起源、如何起源以及可能的功能(圖1)。
  • 一作解讀|Mol Plant中國農大小麥研究中心提出泛基因組時代同源基因推斷新策略並構建小麥族同源基因資料庫
    通過融合序列相似性和基因共線性信息開發了適用於植物泛基因組時代同源基因推斷的新策略(GeneTribe),並構建了以小麥族物種為核心的「小麥族同源基因資料庫」(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。
  • 中國農科院油料所破譯油菜基因組密碼 構建油菜基因轉錄資料庫
    湖北日報訊(記者孟靜、通訊員童超波、劉勝毅)8月28日,記者從中國農業科學院油料作物研究所獲悉,近日油料所油料作物基因組學與抗病性改良創新團隊成功破譯了油菜基因組的全轉錄信息密碼,構建了油菜10萬餘個基因的轉錄全景圖,使得油菜基因功能研究第一次有了相對標準的可參考的基因轉錄資料庫
  • 北京基因組所與合肥市、北大未名集團共建未名-BIG聯合基因研究院
    10月23日上午,由合肥市政府與中國科學院北京基因組研究所、北京北大未名生物工程集團有限公司三方合作共建的「未名-BIG聯合基因研究院」項目在安徽省合肥巢湖經濟開發區正式籤約。安徽省委常委、合肥市委書記吳存榮,合肥市委常委、副市長黃文濤,北大未名生物工程集團有限公司董事長潘愛華、北京基因組所所長薛勇彪等出席並見證了籤約儀式。
  • 《核酸研究》:高質量模式微生物基因組資料庫及分析平臺
    2018年,微生物所牽頭組織發起了全球模式微生物基因組測序計劃,從全球微生物資源保藏中心選擇目前未進行測序的模式微生物菌株(包括細菌、古菌和可培養真菌),預計5年內完成超過10,000種的細菌、真菌、古菌模式菌株基因組測序,建立全球微生物模式菌株基因組測序合作網絡,現已有來自美國的ATCC、日本JCM和NBRC、韓國的KCTC等超過12個國家的26個微生物資源保藏中心正式加入該計劃並形成了重要了階段性成果
  • 《核酸研究》:高質量模式微生物基因組資料庫及分析平臺
    2018年,微生物所牽頭組織發起了全球模式微生物基因組測序計劃,從全球微生物資源保藏中心選擇目前未進行測序的模式微生物菌株(包括細菌、古菌和可培養真菌),預計5年內完成超過10,000種的細菌、真菌平臺不僅集成了目前所有公共來源的模式微生物物種和基因組數據,還發布了大量自測模式微生物基因組數據,是目前國內外模式微生物基因組數據最為豐富的平臺。並且集合了數據搜索下載,新種鑑定,基因組拼接與注釋等在線分析工具,為全球各個保藏中心和廣大分類學家提供一個分類學研究的利器。
  • 中國農大提出同源基因推斷新策略,並構建小麥族同源基因資料庫
    植物中許多物種已經從「一個物種,一個基因組」的時代進入了「一個物種,多個基因組」的「泛基因組時代」(pan-genomic era)。特別是如小麥、玉米和水稻等主要作物,在近緣種、亞種、個體水平都已經完成多個參考基因組的組裝和基因的注釋。在泛基因組時代,如何整合諸多的參考基因組信息並將這些寶貴的數據利用起來,是我們目前面臨的新挑戰。
  • 阿里雲高效基因序列檢索助力新冠肺炎病毒序列快速分析
    基因序列檢索技術也可以檢索與新冠肺炎病毒相似的病毒基因序列,例如SARS、MERS等病毒,從而借鑑相關藥物靶點設計機制,更快、更高效地研發檢測試劑盒、疫苗以及相關的治療藥物。基於當下疫情的快速蔓延,當前的基因匹配算法太慢,迫切需要高效匹配算法進行基因序列檢索。
  • 鯉魚全基因組序列精細圖譜繪製完成
    原標題:鯉魚全基因組序列精細圖譜繪製完成   本報記者 馬愛平   日前,鯉魚全基因組序列精細圖譜已繪製完成,該基因組覆蓋約為16.9億鹼基,包含52610個功能基因,功能基因數目是大多數硬骨魚類基因數目的兩倍。
  • 中科院動物所等開發延緩衰老的「基因療法」
    2021年1月7日,中國科學院動物研究所研究員劉光慧課題組和曲靜課題組、中科院北京基因組研究所研究員張維綺課題組以及北京大學研究員湯富酬課題組合作,在Science Translational Medicine上,在線發表題為A genome-wide CRISPR-based screen identifies KAT7 as a driver of cellular
  • 海洋所科研人員繪製完成牡蠣全基因組序列圖譜
    以上種種又與基因組計劃密不可分。一個物種基因組的完成就意味著對這一物種生命密碼天書進行人工編輯時代的到來。在現代分子生物學的定義中,基因組是生物體所攜帶的遺傳信息總和。包括單倍體細胞核、細胞器或病毒粒子所含的全部DNA分子或RNA分子。基因組包含了DNA的基因區和非編碼序列,是具有遺傳效應的DNA分子片段,能夠傳遞給下一代。
  • 中國農科院繪製油菜基因組轉錄全景圖,構建功能基因資料庫
    > 科技日報武漢7月30日電 記者30日從中國農科院油料所獲悉,該所油料作物基因組學與抗病性改良創新團隊成功破譯了油菜基因組的全轉錄信息密碼,構建了油菜10萬餘個基因的轉錄全景圖
  • 阿里雲推出高效病毒基因序列檢索功能,它的底層邏輯原來是這樣的
    阿里雲AnalyticDB團隊將基因序列片段轉化成對應的1024維的向量特徵。兩個基因片段的匹配問題,轉換成了兩個向量的距離計算問題,從而大大的降低了計算開銷,系統可以在毫秒級別就可以返還回來相關的基因片段,完成基因片段的初篩。然後,使用基因相似計算的BLAST算法[6],完成基因相似度的精排,從而高效的完成基因序列的匹配計算。
  • 人類基因組序列圖完成 六國政府首腦共表祝賀
    人民網北京4月15日電 記者陶世安報導:中華人民共和國科學技術部、中國科學院、國家自然科學基金委員會於今天上午在北京召開新聞發布會,宣布了溫家寶總理與美、英、日、法、德等國政府首腦聯名發表的《六國政府首腦關於完成人類基因組序列圖的聯合聲明》,對人類基因組計劃的完成表示祝賀。
  • Nature方法 | 三代長讀長宏基因組組裝軟體metaFlye
    本文作者開發過一個快速的長序列基因組的組裝工具——Fyle,該工具可產生準確、連續的大片段組裝產物。在本文中,作者報導了一個metaFlye算法用於長片段宏基因組序列組裝。使用模擬菌群、真實菌群對該工具進行評價,結果表明該工具性能優於Canu、FALCON、miniasm、OPERA-MS和wtdbg2。2.
  • 中國完成首例輸入性MERS病例病毒全基因組序列測定
    原標題:中國完成首例輸入性MERS病例病毒全基因組序列測定  新華網北京6月5日電(記者胡浩)記者5日從中國疾病預防控制中心獲悉,中國疾控中心病毒病所與廣東省及惠州市疾控中心合作,已完成我國首例輸入性中東呼吸症候群(MERS)病例的病毒全基因組序列測定。