2019年10月23日 訊 /生物谷BIOON/ --一直以來,合成生物學家一直試圖通過改變自然界中存在的蛋白質,甚至是從頭合成蛋白質,將其進化的途徑掌握在自己手中。通過人工構建不同類型的蛋白,可以設計藥物,感測生物信號,以及生產高價值化學品,等等。
為了設計蛋白質,科學家們使用了兩種截然不同的方法。其一,在「定向進化」中,通過隨機改變編碼天然蛋白質的胺基酸殘基的一級序列,並篩選具有所需活性的變體。其二,通過「合理設計」,即根據其實際3D結構對蛋白質進行建模,以識別可能影響蛋白質功能的胺基酸。然而,「定向進化」策略只能覆蓋整個蛋白質序列庫的很小一部分,而「合理設計」策略則依賴於蛋白質3D結構的解析,這也是十分困難的部分。
(圖片來源:Www.pixabay.com)
如今,由哈佛大學George Church博士領導的研究團隊創建了第三種工程化蛋白質的方法,該方法利用深度學習直接從其胺基酸序列中提取蛋白質的基本特徵,而無需其他信息。該方法可穩健地預測天然的,以及從頭設計的蛋白質的功能,並將電腦程式代替費時費力的人力實驗,與現有方法相比,該新方法可將成本降低兩個數量級之多。相關結果發表在《nature methods》雜誌上。
文章作者之一Surojit Biswas說:「蛋白質設計過程需要通過廣泛了解蛋白質的特徵以了解其設計原理。我們通過神經網絡在公共資料庫中系統地尋找大量原始蛋白質序列中的模式,並且以一種無偏見的方式學習這些規則。通過神經網絡許的研究,我們不僅學到了許多以前已知的規則,除此之外,還發現了蛋白質的許多新功能。」
研究人員將這種新型的蛋白質設計原則命名為「統一表示」(UniRep)。它可以比喻為學習一種語言,在這種語言中,學習者可以對由字母和單詞的字符串構成的複雜句子建立語義理解。在蛋白質語言中,UniRep經過培訓,可以探索公共資料庫中包含的蛋白質序列中的所有可能性,從而從其第一個胺基酸開始預測蛋白質序列中的下一個胺基酸。重要的是,在繼續處理蛋白質的其餘部分(一次一個胺基酸)的同時,UniRep製作並利用了當前挖掘得到的蛋白質序列的內部「摘要」。再加上對個別順序和結構特徵的考慮,最後將這些信息以及其它蛋白質的結果反饋算法本身,UniRep能夠逐漸優化對「摘要」部分的理解,從而隨著時間的推移提高了其預測能力。
「我們對UniRep進行了大約3周的約2400萬種蛋白質序列「培訓」,以使其能夠預測序列及其與諸如蛋白質穩定性,二級結構以及內部序列對蛋白質內周圍溶劑的可及性之類的特性之間的聯繫,」文章作者之一Grigory Khimuly說道「 UniRep準確地描述了來自多種不同類型的蛋白質家族的特徵。」
該團隊將UniRep進一步優化,將其用作預測單個胺基酸取代如何影響蛋白質功能的工具。該神經網絡以多種生物學功能(包括酶催化,DNA結合,分子傳感)可靠地量化了8種不同蛋白質中單個胺基酸突變的影響。此外,他們使用GFP作為模型,並使用UniRep分析該蛋白的64,800個變異體,每個變異體各自帶有1-12個突變。
Church博士說:「與其他策略相比,我們的數據驅動方法在預測蛋白質的多種特性方面達到了最先進的性能,這將使它成為蛋白質工程師真正能夠使用的下一代工具。」(生物谷Bioon.com)
資訊出處:Listening in to how proteins talk and learning their language原始出處:Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church.
Unified rational protein engineering with sequence-based deep representation learning. Nature Methods, 2019; DOI: 10.1038/s41592-019-0598-1