基因組序列太深奧?用這套工具能讀懂

2020-11-22 人民網上海站

原標題:基因組序列太深奧?用這套工具能讀懂

基因組測序工作完成後,哪些基因能翻譯蛋白、能翻譯哪些蛋白,一直是生命科學研究的熱點和難點。近日,中國科學院水生生物研究所葛峰學科組在這一問題上取得突破性進展,相關研究成果於近日在線發表於國際期刊《分子植物》上。

據了解,該研究團隊利用蛋白質基因組學,對三角褐指藻的基因組進行了深度注釋,構建出其蛋白質組精細圖譜,對此前的注釋信息做了大量的修正與補充。更為矚目的是,該團隊在實驗中建立的一套實驗流程和分析軟體,可適用於已完成基因組測序的所有生物,為基因組的解讀提供了重要工具。

破譯核苷酸長序列這本「無字天書」

基因組測序得到的是一本寫有核苷酸長序列的「無字天書」。哪一小段序列構成一個基因,這個基因能否指導合成蛋白、能合成哪些蛋白,在這本「書」上是找不到答案的。要回答以上問題,就需要科學家們做進一步的注釋。

以往的注釋工作,多是從生物信息學的角度進行。這是通過算法計算來預測能翻譯蛋白的基因(也稱編碼基因),以及它們各自在基因組中的位置,但這種方法會遺漏許多編碼基因,或對基因做出錯誤的注釋。

隨著蛋白質組學的發展,一種利用蛋白質組數據對基因組進行深度注釋的研究方向悄然興起。具體來說,就是提取生物細胞內所有的蛋白質,通過質譜分析法得到每個蛋白的胺基酸序列,再在計算機上將其與基因組序列進行大量比對,反推出各編碼基因的精確位置。

「眼見為實自然比基於運算推測來得可靠。」據該研究成果的第一作者楊明坤介紹,這次實驗不僅為許多已知的編碼基因如何在蛋白質水平上表達提供了證據支持,還發現了606個新的編碼基因,其中有56個在此前被錯誤預測為非編碼基因,另有506個編碼基因的錯誤注釋得到校正。

此外,能解析蛋白質翻譯後修飾現象,是蛋白質基因組學的另一優勢。通過20種胺基酸合成的蛋白質,通常要再經過一道加工工序,才能成為具備某種功能的成熟蛋白,而加工的類型往往是多樣的。這就意味著,相同的胺基酸序列,可能會形成不同種類的成熟蛋白。此次研究發現的20多種蛋白質翻譯後修飾,就是這一優勢的佐證。

一款軟體十一套實驗流程即可獲得深度注釋信息

如何將蛋白質組圖譜描畫得更精細、對深奧的基因組信息注釋得更詳盡,一直以來都是蛋白質基因組學的一大難題。而此次研究在可變剪切體的完善上有了新的突破。可變剪切是指基因在轉錄過程中,「剪」去某幾段序列,並將剩下的序列打亂重組的過程。同一基因,不同的剪切位點和排列方式,會形成不同的蛋白質。

楊明坤在接受科技日報採訪時表示,此前的研究都是通過鑑定相應蛋白質的存在,去驗證已知的可變剪切體。而這次他們做的工作,是去發現未知的可變剪切體。

「我們設計相關算法,尋找蛋白的胺基酸序列上可能存在的不同剪切位點,再將剪切得到的『斷片』與基因組數據比對,從而找到相應的可變剪切體。」楊明坤說。據悉,該團隊共發現21個新的可變剪切體,並修正了73個已知基因的可變剪切位點。

對基因組的深度注釋涉及大量的運算,為提高工作效率,該團隊將各個步驟運用到的算法整合起來,研發出一款適用於所有生物的數據分析軟體。運用這款軟體,只需輸入質譜儀採集的質譜數據和簡單的軟體運行參數,就能直接得到相關的基因組注釋信息。此外,團隊還建立了一套實驗流程,供其他科學家參考。這也意味著,今後可直接依葫蘆畫瓢,用團隊的這套流程和軟體,快速完成其他物種的基因組深度注釋。

楊明坤表示,研究小組將進一步優化軟體,繼續提高其運算速度和準確率。「由於2014年完成的人類蛋白質組草圖有太多錯漏,我們準備進一步完善這項工作。只有清楚了人體各個組織內都有哪些蛋白質,在此基礎上才能更好地進行精準醫療。」楊明坤說。

(責編:嚴遠、軒召強)

相關焦點

  • 【科研工具】做序列比對,這個工具最好用!
    在做基因分析的實驗室裡,經常要做序列比對(sequence alignment),多數人都會選擇用NCBI上的BLAST工具。其實,用一個名叫BLAT的工具,有時可以體驗到更好的比對效果。最後一列顯示該比對發現目標序列跟基因組序列有3941bp的跨度(SPAN)。這個SAPN基本上可以認為是內含子產生的,當然還不能確定是有一個內含子還有兩個或更多。在結果顯示欄的最前面,還有兩個超連結,點擊browser可以看到該序列在對應的染色體上的位置以及所屬基因等更多信息,點擊details可以獲取目標序列的更詳細的結構信息。這兩個功能我們下面會繼續提到。
  • 常用在線序列比對工具
    算法在向更快、更精確、能處理更多數據這些方向進行緩慢而有力的發展。常用的在線序列比對工具主要由EMBL-EBI提供,包括但不限於Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具;常用的序列相似性搜索工具有NCBI提供的BLAST、UCSC提供的BLAT等。
  • 史上最全小麥基因組序列圖集問世
    科技日報北京12月2日電 (記者馮衛東)據最新一期《自然》雜誌報導,加拿大薩斯喀徹溫大學領導的國際團隊在一項對全球小麥生產具有裡程碑意義的研究——10+基因組計劃中,對代表全球育種計劃的15個小麥品種的基因組進行了測序。這將使科學家和育種人員能夠更快地識別出具有影響力的基因,從而提高小麥產量、害蟲抗性和其他重要的農作物性狀。
  • 國家基因組科學數據中心首次公開新型冠狀病毒全基因組序列
    國家基因組科學數據中心(NGDC)信息顯示,1月26日,該中心收錄了由中國醫學科學院/北京協和醫學院病原生物學研究所提供的5株2019新型冠狀病毒全基因組序列。這是自2019年12月該病爆發以來,國內公共數據平臺首次公開發布數據。
  • 如何進行基因組序列比對?
    >關鍵詞:參考序列、比對軟體、SAM文件拿到人基因組全外顯子illumina下機數據fastq文件之後,如何進行後續的變異檢測呢?首先要做的就是將測序得到的reads比對到人基因組參考序列上。隨著人類基因組計劃(Human Genome Project,HGP)的進行,International Human Genome Sequencing Consortium在2001年首次公布了人基因組序列的草圖,2003年人類基因組計劃宣布完成。
  • 新型CRISPR工具或能通過將RNA複製到基因組中精確修飾基因
    2019年11月19日 訊 /生物谷BIOON/ --構成生命藍圖的DNA序列變異對任何物種的健康都是至關重要的,成千上萬的DNA突變被認為都會導致疾病,經過幾十年的遺傳學和分子生物學研究後,如今研究人員在開發能夠糾正突變的基因組編輯工具上取得了巨大的進展,但由於工具依賴於複雜和相互競爭的細胞過程,基因編輯的效率和準確性似乎受到了根本性的限制;近日,一項刊登在國際雜誌
  • 家豬基因組序列公布
    中國科學院北京基因組研究所與丹麥家豬育種生產委員會於6月6日在中國北京和丹麥哥本哈根發表聯合聲明:宣告家豬基因組序列對外公開。 據悉,此次公布的數據包含384萬個來自於中國和歐洲的五個不同家豬品種的基因組序列片段。
  • cuteSV——基因組結構變異檢測工具
    來自哈爾濱工業大學的姜濤老師在近期發表的文章中[4]介紹了一款全新的SV檢測工具——cuteSV,該工具使用了納米孔測序高通量測序平臺PromethION最新發布的長讀長測序技術,解析了Genome in a Bottle(GIAB)HG002人類參考基因組樣本中的SV。
  • 多重序列比對(MSA)分析工具怎麼選,看這一篇就夠了
    原本以為可以快速地進行下一步的選擇壓力分析,沒想到卻在多序列比對這一環節出現了棘手的問題。以前,我都是經過PRANK軟體進行多序列比對,然後再使用Gblocks軟體對數據進行過濾的。現在,由於師弟師妹在拼接CDS序列時,有些鹼基並不是保留3的倍數,造成很多編碼序列出現移碼突變,甚至變成了偽假基因(幾百個基因)。
  • 科學網—我國科研人員成功構建穀子全基因組序列圖譜
    穀子遺傳連鎖圖 【科學網 高長安 全志武報導】近日,河北省張家口市農科院和深圳華大基因研究院聯合成功完成穀子全基因組序列圖譜的構建。這些特性使穀子能夠成為基因組分析和研究的一個很好的新的模式作物。 在本研究中,科研人員通過新一代測序技術對一株來自中國北方的穀子品系進行了全基因組測序和從頭組裝,獲得了穀子的全基因組序列圖譜(組裝得到的基因組大小約為423Mb,N50達到了1.0Mb)。通過基因組注釋和分析發現,穀子基因組中的重複序列約佔整個基因組的46%,大約含有38,801個蛋白質編碼基因。
  • 多項研究開發出可增強基因組編輯範圍的新型CRISPR/Cas9工具
    在過去的十年裡,科學家們成功地利用這一自然現象,發現了細菌中的CRISPR蛋白--其中最廣泛使用的是Cas9酶。Cas9與嚮導RNA(gRNA)相結合,能夠靶向結合、切割和降解特定的DNA序列。CRISPR的應用範圍從治療遺傳疾病到農作物的營養功效,它已經成為最有前景的基因組編輯工具之一。然而,Cas9酶依賴特定的DNA郵政編碼來確定切割和編輯的位置。
  • 北京市農林科學院完成首張西瓜基因組序列圖譜與破譯
    近日,北京市農林科學院宣布完成了世界首張西瓜基因組序列圖譜繪製與破譯,該研究成果於2012年11月25日在國際學術刊物《自然·遺傳學》(影響因子為35.53)上在線發表。
  • 劉耀光院士團隊開發基因編輯刪除基因組片段的靶點設計工具
    基因編輯新工具:MMEJ-KO!劉耀光院士團隊開發基因編輯刪除基因組片段的靶點設計工具以下文章來源於中國科學雜誌社 ,作者中國科學生命科學基因組編輯技術為動植物基因功能研究和遺傳改良提供了革命性的遺傳操作工具。
  • 美國冷泉港實驗室開發全球首款移動式基因組序列分析程序
    美國冷泉港實驗室科學家開發了世界上第一款基於蘋果作業系統的移動式基因組序列分析程序,用蘋果手機配上手持式DNA測序儀,就可創建一個移動式遺傳學實驗室。該項研究發表在《Gigascience》上,論文中指出, iGenomics算法可快速定位病毒病原體(如流感病毒或寨卡病毒)的DNA序列,並識別出對診斷和治療很重要的突變。研究人員還提供了在線教程,以分析其他病毒基因組,如來自新冠肺炎患者的基因組。據悉,大多數DNA研究,都是在大型伺服器或高端筆記本電腦上進行的。
  • 昆明植物所完成新款基因組DNA微衛星序列軟體的研發
    昆明植物所完成新款基因組DNA微衛星序列軟體的研發 來源:昆明植物研究所   發布者:左麗媛   日期:2016-09-09   今日/總瀏覽:3/2443
  • 科學網—穀子全基因組序列圖譜構建成功
    本報訊(記者高長安 通訊員全志武)近日,河北省張家口市農科院和深圳華大基因研究院等單位的科研人員成功完成了穀子全基因組序列圖譜的構建
  • 白鰭豚全基因組序列成功測定
    我國科學家成功主持完成了白鰭豚全基因組序列測定與分析工作,這是國際上第一次通過新一代測序方法獲得較高測序深度的鯨類全基因組序列圖譜。
  • 中國首次完成梅花全基因組序列
    中國首次完成梅花全基因組序列,為水果改良育種奠定基礎  【搜狐科學信息】據國外媒體報導,中國的科研團隊在世界範圍內首次測定了梅花的基因組序列。這一研究成果發表在12月的《自然•通訊》雜誌上。  梅在中國已有3000多年栽培歷史。由於使用了人工嫁接技術,在中國的種植區域也十分廣闊。但其高度雜合性也增加了基因組整合的難度。研究人員採用新一代的測序技術(NGS)和全基因組映射技術(WGM),對西藏的一個野生種構建出高密度的遺傳圖譜。最終成功得到了長達237Mb的梅花基因組參考序列。
  • 科學家開發出評估病毒基因組質量和完整性的新工具
    科學家開發出評估病毒基因組質量和完整性的新工具 作者:小柯機器人 發布時間:2020/12/22 22:27:01 美國勞倫斯伯克利國家實驗室Nikos C.
  • 動物所開發新型基因組編輯工具CRISPR/Cas12b
    中國科學院動物研究所研究團隊通過系統挖掘,成功地鑑定出若干能在人體生理溫度工作的Cas12b/C2c1酶。經過系統改造,兩種Cas12b/C2c1酶被成功開發成為哺乳動物基因組編輯工具,能夠編輯人類細胞基因組並應用於製備動物疾病模型。