大家好!今天為大家推薦一篇發表ACS. Cent. Sci.上的文章:Deep Learning for Prediction and Optimization of Fast-Flow Peptide Synthesis,文章的通訊作者是來自麻省理工的Bradley L. Pentelute和Rafael Gomez-Bombarelli,Pentelute教授專注的方向是蛋白質工程與藥物遞送,而Bombarelli教授則是從事計算輔助的合成方法學研究。
固相肽合成(SPPS)是人工合成多肽的重要手段,與基因重組表達相比,SPPS合成的肽不受序列與胺基酸種類的限制,因此使用範圍更廣。然而,SPPS涉及多個步驟的重複反應,對時間和體力的消耗非常大。近年來,流式化學技術的發展催生了自動合成儀化學平臺的設計與使用,作者的實驗室就設計了一個自動化的快速流式肽合成儀(AFPS),可以實現高效自動的SPPS。但是,合成過程中出現聚集等副反應的問題仍未得到解決。為了提高產率,作者設想通過算法對自動合成進行實時的優化。
為了實現這一設想,作者需要這種算法可以在合成條件與產率之間建立準確的聯繫,這一目標可以通過深度學習來實現。但是,有效的深度學習需要大量高質量且標準化的數據,這意味著不能簡單地從出版的資料中收集這些數據,因為它們是不同標準的且不一定可重複。為了獲得統一標準的高度可重複的數據,作者用AFPS在相同的優化參數下做了大量的脫保護合成步驟,獲得了35427個獨立的UV-Vis檢測數據。作者將每個合成反應中的前體序列和引入的胺基酸都用指紋圖譜編碼成類似條形碼的形式,這些條形碼包含胺基酸的側鏈、醯胺鍵和保護基等所有關鍵亞結構的信息。作者將這些條形碼信息和對應的合成參數(包括反應溫度、流速、偶聯試劑等)作為輸入,肽合成中Fmoc去保護的UV-Vis跡線的積分、高度和寬度作為輸出,這些變量是衡量反應是否成功的重要標準。作者在用收集到的數據訓練了深度神經網絡模型後,用該模型預測的UV-Vis跡線與實驗所得數據在誤差允許範圍內是相匹配的。
作者使用該模型預測了聚集與序列的關聯性,聚集是SPPS中發生的最重要的副反應之一,但是聚集與肽段序列之間的關係尚不明確。發生聚集的特點是UV-Vis峰變得更平更寬,作者用寬高比對這一特徵進行量化定義,並用訓練的模型準確判斷出了GLP-1在添加Ala18後發生的聚集。為了進一步了解聚集與序列間的關聯,作者用該模型預測了PDB中8000餘種蛋白質可能的聚集行為,發現芳基和較大側鏈的胺基酸最容易導致聚集。作為驗證,作者將選定的對待合成肽進行了單點突變並用模型判斷了所有突變體的發生聚集的可能性;隨後用實驗合成了其中幾個肽並將產率與模型預測進行了比較,二者是相符的。
最後,作者用該模型的預測結果作為指導去優化了AFPS自動合成過程中的參數,從而對於除了Trp之外的所有胺基酸都獲得了一個新的偶聯配方。實驗證明在優化的條件下大多數胺基酸的偶聯產率都提高了,但包括Trp在內的幾種胺基酸仍有進一步優化的空間。
綜上,作者利用一個深度學習模型對流式肽合成的產率進行了預測並用該模型指導了合成條件的優化。作者希望未來該模型能夠實現在合成過程中的實時調控,即根據上一步合成的表徵信息自動給出下一步合成的最佳優化條件。
本文作者:TZY責任編輯:LYP原文連結:https://pubs.acs.org/doi/abs/10.1021/acscentsci.0c00979原文引用:DOI:10.1021/acscentsci.0c00979