我們一般做數據挖掘時都是通過BLAST或其它相似工具在資料庫中尋找大量相似的序列,然而因為搜索得到的序列結果與資料庫中的主題序列存在部分匹配,大大增加我們翻譯、解釋這些結果的難度。
在今年7月來自捷克的Schwarz課題組在Frontiers in Genetics發表了著作,他們開發了rboAnalyzer軟體,主要針對非編碼RNA,以自動化工作流程取代手動工作,可有助於解釋序列搜索結果。(圖片來自於:
https://doi.org/10.3389/fgene.2020.00675)
rboAnalyzer 軟體操作步驟簡單地分為三步
1) 把部分匹配擴展到其可能的全長序列。
2) 識別主題RNA的同源性。
3) 預測二級結構。
rboAnalyzer 在Linux系統上運行,利用具有Biopython、NumPy、Pandas、matplotlib和Jinja2的Bash和Python 3操作。Schwarz課題組用該軟體對放線菌的分歧桿菌ms1 RNA的同源性分析做了示範,你看:https://doi.org/10.3389/fgene.2020.00675)他們選取3個不同質量的高分值片段對HSP,圖5A代表的是高質量HSP,HSP 覆蓋了查詢序列的很大一部分,但間隙相對較少,表明查詢序列與主題RNA具有很強的相似性,從而表明它們的同源性。高序列相似性導致精確擴展的全匹配,使得能夠預測由 Turbofold 和 rfam-Rc 預測最好表示的準確二級結構。圖5B代表的是同源性RNA,5C代表的是非同源性RNA。rboAnalyzer 軟體能夠準確地識別同源性。事實上,ms1 RNA是個唯一的細菌RNA,而非同源性HSP的存在於真核細胞。這篇文章的作者認為rboAnalyzer軟體是必需的,因為通常只有全長序列才能對RNA做有效分析。二級結構、同源性和功能鑑定的預測分析也同樣重要。
• END •
↓更多往期精彩內容,點擊【以下連結】
經驗分享︱如何判斷和防止培養細胞受汙染
NATURE︱2020年全球最矚目的科研成果:人類遺傳變異體資料庫gnomAD
2019年度SCI影響因子正式出爐(附JCR期刊名單)
【經驗分享】細胞培養如何避免支原體感染
組織工程中的3D培養系統
南博屹相伴,科研不孤單
喜歡就點在看唄↓↓↓