原標題:基因組序列太深奧?用這套工具能讀懂
基因組測序工作完成後,哪些基因能翻譯蛋白、能翻譯哪些蛋白,一直是生命科學研究的熱點和難點。近日,中國科學院水生生物研究所葛峰學科組在這一問題上取得突破性進展,相關研究成果於近日在線發表於國際期刊《分子植物》上。
據了解,該研究團隊利用蛋白質基因組學,對三角褐指藻的基因組進行了深度注釋,構建出其蛋白質組精細圖譜,對此前的注釋信息做了大量的修正與補充。更為矚目的是,該團隊在實驗中建立的一套實驗流程和分析軟體,可適用於已完成基因組測序的所有生物,為基因組的解讀提供了重要工具。
破譯核苷酸長序列這本「無字天書」
基因組測序得到的是一本寫有核苷酸長序列的「無字天書」。哪一小段序列構成一個基因,這個基因能否指導合成蛋白、能合成哪些蛋白,在這本「書」上是找不到答案的。要回答以上問題,就需要科學家們做進一步的注釋。
以往的注釋工作,多是從生物信息學的角度進行。這是通過算法計算來預測能翻譯蛋白的基因(也稱編碼基因),以及它們各自在基因組中的位置,但這種方法會遺漏許多編碼基因,或對基因做出錯誤的注釋。
隨著蛋白質組學的發展,一種利用蛋白質組數據對基因組進行深度注釋的研究方向悄然興起。具體來說,就是提取生物細胞內所有的蛋白質,通過質譜分析法得到每個蛋白的胺基酸序列,再在計算機上將其與基因組序列進行大量比對,反推出各編碼基因的精確位置。
「眼見為實自然比基於運算推測來得可靠。」據該研究成果的第一作者楊明坤介紹,這次實驗不僅為許多已知的編碼基因如何在蛋白質水平上表達提供了證據支持,還發現了606個新的編碼基因,其中有56個在此前被錯誤預測為非編碼基因,另有506個編碼基因的錯誤注釋得到校正。
此外,能解析蛋白質翻譯後修飾現象,是蛋白質基因組學的另一優勢。通過20種胺基酸合成的蛋白質,通常要再經過一道加工工序,才能成為具備某種功能的成熟蛋白,而加工的類型往往是多樣的。這就意味著,相同的胺基酸序列,可能會形成不同種類的成熟蛋白。此次研究發現的20多種蛋白質翻譯後修飾,就是這一優勢的佐證。
一款軟體十一套實驗流程即可獲得深度注釋信息
如何將蛋白質組圖譜描畫得更精細、對深奧的基因組信息注釋得更詳盡,一直以來都是蛋白質基因組學的一大難題。而此次研究在可變剪切體的完善上有了新的突破。可變剪切是指基因在轉錄過程中,「剪」去某幾段序列,並將剩下的序列打亂重組的過程。同一基因,不同的剪切位點和排列方式,會形成不同的蛋白質。
楊明坤在接受科技日報採訪時表示,此前的研究都是通過鑑定相應蛋白質的存在,去驗證已知的可變剪切體。而這次他們做的工作,是去發現未知的可變剪切體。
「我們設計相關算法,尋找蛋白的胺基酸序列上可能存在的不同剪切位點,再將剪切得到的『斷片』與基因組數據比對,從而找到相應的可變剪切體。」楊明坤說。據悉,該團隊共發現21個新的可變剪切體,並修正了73個已知基因的可變剪切位點。
對基因組的深度注釋涉及大量的運算,為提高工作效率,該團隊將各個步驟運用到的算法整合起來,研發出一款適用於所有生物的數據分析軟體。運用這款軟體,只需輸入質譜儀採集的質譜數據和簡單的軟體運行參數,就能直接得到相關的基因組注釋信息。此外,團隊還建立了一套實驗流程,供其他科學家參考。這也意味著,今後可直接依葫蘆畫瓢,用團隊的這套流程和軟體,快速完成其他物種的基因組深度注釋。
楊明坤表示,研究小組將進一步優化軟體,繼續提高其運算速度和準確率。「由於2014年完成的人類蛋白質組草圖有太多錯漏,我們準備進一步完善這項工作。只有清楚了人體各個組織內都有哪些蛋白質,在此基礎上才能更好地進行精準醫療。」楊明坤說。
(責編:嚴遠、軒召強)