ACS Cent. Sci.|利用深度學習實現流式肽合成的預測與優化

2020-12-24 DrugAI

大家好!今天為大家推薦一篇發表ACS. Cent. Sci.上的文章:Deep Learning for Prediction and Optimization of Fast-Flow Peptide Synthesis,文章的通訊作者是來自麻省理工的Bradley L. Pentelute和Rafael Gomez-Bombarelli,Pentelute教授專注的方向是蛋白質工程與藥物遞送,而Bombarelli教授則是從事計算輔助的合成方法學研究。

固相肽合成(SPPS)是人工合成多肽的重要手段,與基因重組表達相比,SPPS合成的肽不受序列與胺基酸種類的限制,因此使用範圍更廣。然而,SPPS涉及多個步驟的重複反應,對時間和體力的消耗非常大。近年來,流式化學技術的發展催生了自動合成儀化學平臺的設計與使用,作者的實驗室就設計了一個自動化的快速流式肽合成儀(AFPS),可以實現高效自動的SPPS。但是,合成過程中出現聚集等副反應的問題仍未得到解決。為了提高產率,作者設想通過算法對自動合成進行實時的優化。

為了實現這一設想,作者需要這種算法可以在合成條件與產率之間建立準確的聯繫,這一目標可以通過深度學習來實現。但是,有效的深度學習需要大量高質量且標準化的數據,這意味著不能簡單地從出版的資料中收集這些數據,因為它們是不同標準的且不一定可重複。為了獲得統一標準的高度可重複的數據,作者用AFPS在相同的優化參數下做了大量的脫保護合成步驟,獲得了35427個獨立的UV-Vis檢測數據。作者將每個合成反應中的前體序列和引入的胺基酸都用指紋圖譜編碼成類似條形碼的形式,這些條形碼包含胺基酸的側鏈、醯胺鍵和保護基等所有關鍵亞結構的信息。作者將這些條形碼信息和對應的合成參數(包括反應溫度、流速、偶聯試劑等)作為輸入,肽合成中Fmoc去保護的UV-Vis跡線的積分、高度和寬度作為輸出,這些變量是衡量反應是否成功的重要標準。作者在用收集到的數據訓練了深度神經網絡模型後,用該模型預測的UV-Vis跡線與實驗所得數據在誤差允許範圍內是相匹配的。

作者使用該模型預測了聚集與序列的關聯性,聚集是SPPS中發生的最重要的副反應之一,但是聚集與肽段序列之間的關係尚不明確。發生聚集的特點是UV-Vis峰變得更平更寬,作者用寬高比對這一特徵進行量化定義,並用訓練的模型準確判斷出了GLP-1在添加Ala18後發生的聚集。為了進一步了解聚集與序列間的關聯,作者用該模型預測了PDB中8000餘種蛋白質可能的聚集行為,發現芳基和較大側鏈的胺基酸最容易導致聚集。作為驗證,作者將選定的對待合成肽進行了單點突變並用模型判斷了所有突變體的發生聚集的可能性;隨後用實驗合成了其中幾個肽並將產率與模型預測進行了比較,二者是相符的。

最後,作者用該模型的預測結果作為指導去優化了AFPS自動合成過程中的參數,從而對於除了Trp之外的所有胺基酸都獲得了一個新的偶聯配方。實驗證明在優化的條件下大多數胺基酸的偶聯產率都提高了,但包括Trp在內的幾種胺基酸仍有進一步優化的空間。

綜上,作者利用一個深度學習模型對流式肽合成的產率進行了預測並用該模型指導了合成條件的優化。作者希望未來該模型能夠實現在合成過程中的實時調控,即根據上一步合成的表徵信息自動給出下一步合成的最佳優化條件。

本文作者:TZY責任編輯:LYP原文連結:https://pubs.acs.org/doi/abs/10.1021/acscentsci.0c00979原文引用:DOI:10.1021/acscentsci.0c00979

相關焦點

  • 8篇論文深入學習深度估計:深度預測;自我運動學習;觀看《冰雪奇緣...
    第二部分是卷積和解池層的序列,利用它們來指導網絡學習其 upscaling 。然後應用Dropout,進行最後的卷積,得到最終的預測。解池層可提高特徵圖譜的空間解析度。通過將每個條目映射到2 x 2內核的左上角實現解池層,從而使大小加倍。每個這樣的層後面是一個5×5的卷積。這個模塊被稱為上卷積。在上卷積之後添加了一個簡單的3×3卷積。投影連接從較低解析度的特徵圖添加到結果中。
  • 「可解釋學習」利用SHAP對分子活性預測機器學習模型進行解釋
    文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。——背景——眾所周知,機器學習模型在藥物研究中取得了許多優秀的成果,其中包括分子性質預測、從頭藥物設計、分子合成分析等多個方面。
  • ...提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習
    而基於模型(model-based)的強化學習方法則額外學習一個簡化的環境模型,這一環境模型使得主體可以預測潛在行為序列的輸出,使得它可以通過假設的場景來在新環境中作出明智的決策,減少了實現目標所需的試錯。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫學研究都可以被轉換成計算公式。然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於胺基酸序列來有效預測蛋白質的3D結構。
  • |深度學習探索可編程RNA開關
    增強深度學習的模式識別可以用於預測合成生物學成分。本文用深度神經網絡(DNN)來預測合成生物學中的經典核糖開關模型——toehold開關。為了促進DNN訓練,作者在體內合成並表徵了涵蓋23個病毒基因組和906個人類轉錄因子的91,534個toehold開關的數據集。
  • 小心打開「AI深度合成」魔法盒
    在實現商業落地的探索中,還需要嘗試開發更多的功能,同時解決目前存在的法律風險問題,形成完整的商業模式。 郭成傑認為,深度合成可以與影視行業更多地結合。一是可以大幅降低合成影像的技術門檻,實現低成本特效;二是利用AI換臉技術,可以解決由於演員身故、生病或醜聞等因素,而使得影視作品不能繼續拍攝的問題。
  • 應用深度學習預測溼性黃斑的變性轉換
    應用深度學習預測溼性黃斑的變性轉換 作者:小柯機器人 發布時間:2020/5/20 21:09:52 英國DeepMind公司Jeffrey De Fauw、Joseph R.
  • 2020年深度學習發展大盤點及對2021年深度學習的未來展望|極客雲算
    深度學習框架作為AI底層工具,對個人而言是進入深度學習世界的一把鑰匙,掌握深度學習框架並不等於理解了深度學習,要在AI開發中有所作為,關鍵還是要真正理解框架背後的技術、實踐和生態。隨著近年來的人工智慧發展,2020年深度學習依然是發展最快的領域之一,直奔未來工作。其發展是多方面的,而且是多方位的。
  • Yoshua Bengio:深度學習如何實現系統進化?
    系統1是直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;系統2是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要著重考慮的。對於系統2來說,基本的要素包括注意力和意識,意識先驗可以使用稀疏因子圖模型來實現,這是一個思路,實現了因果關係。
  • 畢業論文和SCI論文作圖規範
    一、SCI論文表圖類型1.sci論文中圖表的位置和順序表格(figures):排在正文中參考文獻的後邊,每個表格一頁圖注(figure legends):圖注排在表格的後面,另起一頁圖(figure):在圖注後面,每個圖一頁2.SCI的圖片類型:數據採集軟體、統計軟體產生的圖數據採集軟體直接得到的圖:細胞照片、免疫組化的照片等統計軟體圖軟體產生的圖:直條圖、X-Y線圖、流式細胞散點圖等
  • 當模型預測控制遇見機器人學習
    進而通過優化工具搜索到能實現對期望軌跡最優跟隨效果的一系列執行器動作,然後只將第一步動作施加在被控對象上,被控對象執行完畢後再次反饋其當前的狀態給MPC控制器,以重複這個控制過程。兩種方法各有優劣,PID控制方法簡單,工程實現容易,但存在超調問題,而且難以勝任多個輸入和輸出(Multi-Input and Multi-Output,簡稱MIMO)的複雜控制系統的多目標受限優化問題;MPC理論上可以實現最優的控制性能,並且可以輕鬆應對MIMO系統的挑戰,但其性能非常依賴預測模型的精度。圖2.
  • 使用Kafka本機模型伺服器進行流式機器學習
    機器學習(ML)包括有關歷史數據的模型訓練以及用於評分和預測的模型部署。雖然訓練大多是分批進行的,但評分通常需要大規模且可靠的實時功能。Apache Kafka在現代機器學習基礎架構中扮演著關鍵角色。下一代體系結構利用Kafka本機流模型伺服器而不是RPC(HTTP / gRPC)。
  • Hortonworks的DataFlow 3.0平臺簡化流式分析應用軟體的開發
    HDF使客戶能夠在數據中心和雲端實現所有數據的實時收集、挑選和分析,並在此基礎上採取相應的行動。 物聯網的發展帶來了來自行動裝置、可穿戴技術和傳感器的全新模式的數據,企業可通過這些數據實時發現可行動情報。據Gartner預測,「到2020,70%的企業將採用數據流來實現實時分析」*,同樣,HDF的應用與去年同期相比也顯著加快。
  • 互動體驗樂趣多,百度深度學習開發者峰會打造開發者樂園
    NoNoNo,這是12月20日百度在北京舉辦的WAVE SUMMIT+2020深度學習開發者峰會現場實況。(圖:WAVE SUMMIT+2020深度學習開發者峰會展區現場)作為面向深度學習開發者一年兩次的技術盛會,WAVE SUMMIT+2020除了滿滿的技術乾貨和「全明星」嘉賓陣容,現場還設置了「開發者互動」和「生態合作夥伴」兩個展區,十來個玩了還想玩的互動項目吸引著開發者前來體驗。
  • 比技術拼腦洞,百度深度學習開發者峰會AI狂歡趴創意十足
    NoNoNo,這是12月20日百度在北京舉辦的WAVE SUMMIT+2020深度學習開發者峰會現場實況。作為面向深度學習開發者一年兩次的技術盛會,WAVE SUMMIT+2020除了滿滿的技術乾貨和「全明星」嘉賓陣容,現場還設置了「開發者互動」和「生態合作夥伴」兩個展區,十來個玩了還想玩的互動項目吸引著開發者前來體驗。
  • 真實的虛擬世界:從深度偽造到深度合成
    此次騰訊對話著重探討AI深度學習為基礎的深度合成技術(Deep Synthesis)的發展與應用。騰訊玄武實驗室負責人於暘、騰訊AI Lab視覺首席科學家劉威博士、中科院自動化研究所副總工程師張文生教授、電影《大聖歸來》出品人路偉圍繞深度合成技術展開了深入討論,此次對話由騰訊研究院院長司曉主持。2014年,對抗生成網絡(GAN)被發明,由AI打造的虛擬世界大門初現。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    在人工智慧高歌猛進,人們期待深度學習無往不勝之時,作為人工智慧學者,我們必須保持冷靜,分析深度學習技術的短板,開展針對性研究將其克服,從而助力人工智慧的長期繁榮。事實上,今天深度學習成功的主要因素:超大規模訓練數據、複雜的深層模型、分布式並行訓練,也正是影響其進一步發展的障礙。
  • 中興通訊智能優化服務方案,基於VMAX-AI系統實現運營商操作優化
    中興通訊智能優化服務方案基於公司開發的VMAX-AI系統,對接網管、大數據平臺等自動採集各類歷史及實時網絡數據,採用不斷實踐修正的k-means、GMM、圖論等一系列深度學習算法訓練模型,實現運營商網絡各種複雜場景的自動