今天給大家介紹由哈佛大學和劍橋大學的研究人員聯合發表在Nature Communications的一篇文章。由於對設計規則的理解有限,設計全新的生物迴路組件仍然是一項具有挑戰性的工作,支點開關(Toehold Switches)的設計也面臨相似的問題。針對上述情況,作者提出了兩種深度學習架構——STORM和NuSpeak,這二種架構使用了卷積過濾器,注意力圖和電子誘變技術用於描述和優化支點。實驗結果證明,即使在訓練數據比較稀疏的情況下,通過遷移學習設計的支點傳感器,仍然具有改進的性能。
合成生物學的發展改變了生物技術範式,儘管研究人員已經成功地從自然存在的生物迴路組件中分離並改編模板,但單個生物迴路的開發可能需要數周的篩選和微調。計算機工具可以幫助建模和重新設計核酸傳感器(例如核糖開關),用於解決生物迴路部件預測和設計複雜性。利用計算機篩選,可以將天然存在的和重新設計的合成組件集成到工程生物系統中。
支點開關(Toehold Switches)是一種特別通用的合成核糖調節劑,能夠通過線性-線性雜交相互作用檢測,並響應RNA分子的存在,儘管支點開關已成為合成生物學工具包中有效的組成部分,但由於可用的支點開關數量少以及缺乏實現最佳性能的有效設計規則,對開關設計的廣泛理解受到了限制。研究人員開發的基於序列的計算工具能夠在實驗驗證之前預測RNA的二級結構,但當將其應用於多狀態閾值開關時,預測效果較差,並且耗時長。
為了改進支點開關的設計和預測,作者從更廣泛的機器學習領域中汲取了靈感。作者構建了兩個互補且正交的深度學習模型來揭示支點設計規則,並且與Angenent-Mari合作設計了,與人類基因組元素,RNA病毒和隨機序列互補的支點數據集。此外,作者將這兩個模型擴展到重新設計表現不佳的支點,從而創建了基於NLP,以核苷酸為中心的語言模型(NuSpeak)和基於CNN和序列的支點優化與重新設計模型(STORM),分別優化了病原體傳感器和作為合成迴路組件的支點。
作者和Angenent-Mari共同設計了包含244,000個支點開關的數據集,包括病毒和人類基因組序列以及隨機序列,其中91,534個開關在實驗表徵後符合定義明確的質量控制標準。如圖c,d,作者進行了傳統的生物信息學表達研究,發現高性能和低性能序列中,核苷酸組成不同。標誌為了進一步了解序列編碼部分的變化如何影響支點表現,作者對讀框內胺基酸進行了更廣泛的分析,讀框內終止密碼子在高性能序列的N末端發生的頻率較低,較小的疏水性胺基酸(例如纈氨酸,丙氨酸和甘氨酸)在高性能序列的N端比在低效胺基酸序列中更常見。為了闡明良好支點和不良支點之間的任何宏觀序列模式,作者利用CGR提供了一種信息豐富且無損的編碼方案,並觀察到表現良好的A富密碼子的富集。
GC含量對於ON和OFF狀態穩定性的強度很重要,作者將性能最高的序列的GC含量分布與所有序列的GC含量分布進行了比較,結果表明,成功的開關可能具有20%至60%的可接受GC含量範圍。此外,作者對表現最佳的序列中的MFE分布與所有序列的分布進行了評估,高性能序列的MFE分布在統計上比所有序列都高。儘管最上層序列在GC含量和MFE分布上均顯示出統計學上的顯著變化,但由於它們的可接受值範圍廣,這些屬性缺乏足夠的預測能力。
如圖1.b所示,作者構建了一個以RNA序列作為輸入的CNN,採用兩個卷積層來識別輸入序列中的合理基序和部分基序. 為了查看「黑匣子」內部,作者選擇直接可視化訓練後模型的權重和激活函數,將第一個卷積層「拆箱」,可視化模型認為重要的特徵,方法是將從輸入序列中學到的濾波器權重解釋為序列標誌(圖2a)。為了了解卷積濾波器的趨勢,作者對CNN進行了20次訓練,並探索了濾波器組合中三聚體的頻率(圖2b)。當與均勻分布下的預期值進行比較時,「 CCC」三聚體的出現頻率比預期高出近2.5倍,這表明該模型可以學習該基序以改善預測。此外,訓練好模型將學會忽略實驗節點中過度表現的序列(例如,AGA和GAG)。
同樣,作者還構建了一種編碼器/解碼器體系結構來學習支點序列語言,其中每個k-mer被視為「單詞」或「令牌」,每個支點序列是一個「句子」。編碼器為輸入語料庫中每個唯一標記,學習有意義的,與上下文相關的表示形式,然後可以使用線性分類層進行擴展,以預測給定支點的好壞。當將表示向量映射回解碼器擴充時,完整的LM可以在語言空間內生成任意長度的有意義序列。作者首先在計算機生成的400萬個合成支點上訓練了LM。為了確定LM是否已學會了支點序列的有意義表示,作者將一個支點序列的400維表示映射到具有UMAP41的降維流形上(圖2c),並將其與加擾和混洗方法進行比較。作者表示,真正的支點序列和二維流形上的控制項之間沒有重疊,這表明LM捕獲了一個支點序列中基序順序的重要性。此外,作者使用其他支點數據集來訓練序列分類器。圖2d顯示,分類器將表現良好的支點和劣質支點分為兩類,分類概率接近0.5的序列會填充決策邊界,預測性分別比使用混洗和加擾的支點分類器高約3.7倍和約6.2倍,說明了序列基序順序對於區分支點性能至關重要,模型已學會了除了k-mer頻率以外的更多信息。
為了了解支點序列中的變化如何影響模型預測,作者對2500個隨機實驗支點進行了誘變掃描。對於支點中的每個位置處的所有四個可能鹼基對進行了突變,並計算了基於CNN模型的ON(圖2e)和OFF(圖2f)預測的標準偏差。在位置15、18和21處,效應大小的峰值反映了序列標誌中的重要位置,表明該模型了解了核苷酸的位置重要性。同時,在每個位置用隨機核苷酸對500個隨機選擇支點進行序列突變,然後反饋到LM中以計算分類概率(圖2g),與先前的突變分析相呼應,位置26–30被證明對支點表現有最大的影響。為了確定模型的決策過程並進一步確定支點序列中的重要區域,作者首先對一組5000個隨機取樣的支點(圖2h)計算了語言模型的自注意力。自注意圖表明轉換區的最後12個核苷酸,對分類決策影響最大。這些結果反映在由CNN模型計算的顯著性圖上,作者在其中評估了100個隨機序列中每個位置對最大化ON值(圖2i)和最小化OFF值(圖2j)的重要性。在這裡,通過對每個位置的核苷酸之間的梯度求和來計算出較高的顯著性,表明該核苷酸在模型的ON或OFF預測過程中被認為更具影響力。為了了解序列顯著性是否隨ON或OFF預測的實驗值變化,評估了高表現和低表現支點定點集的顯著性圖。表現不佳的支點位圖在前12個核苷酸中表現出的活化程度與它們的高性能對應物相似,表明該模型學習了支點不同區域與預測功能之間的關係。
為了擴大在同一任務上兩個模型體系結構之間的比較,除了基於CNN的模型如何預測ON和OFF狀態,作者還系統地評估了語言模型如何針對三個ON / OFF閾值(圖3a,補充圖S5)對良好和不良支點進行分類。(圖3b–d)。實驗結果表示,所有模型僅基於開關ON值就具有較高的相關度量。這些結果表明,模型能夠更輕鬆地學習區分高ON值的特徵。作為一個附加的驗證實驗,在分類器訓練階段保留了分塊病毒基因組獲得的對應支點,然後將這些序列輸入經過訓練的模型中,並對預測結果進行評分,在感測20個不同病毒基因組的支點上觀察到相似的性能(平均MCC〜0.50)。此外,根據更成熟的現成方法評估了模型。當將LM與其他常用的基於tf-idf或skip-gram詞嵌入模型進行比較時,skip-gram模型比tf-idf模型的預測值平均高出1.8倍。LM的性能明顯優於所有其他基於詞嵌入的體系結構,包括雙向LSTM和self-attention。為了闡明模型是否飽和,作者計算了兩組架構的學習曲線(圖3e–g)。儘管對較小的數據集進行了訓練,但相對於加擾和混洗的序列,兩個模型都能夠生成有意義的預測,總的來說,這些數據證明了這些體系結構在訓練比預期少得多的數據時的強大功能。
考慮到語言模型和CNN架構的獨特優勢,作者將這兩種架構都整合到一起,設計可以最佳地檢測任何任意核酸序列的節點(圖4a)。作者在8個較小的168個序列集中探索模型性能,這些序列已在包含游離觸發RNA而非融合觸發的背景下進行了測試。經過預訓練的LM在數據集上表現不好,作者通過在測試數據集上微調預訓練語言模型來構建更具預測性的模型。作者將168個自由觸發序列作為第二個較小的訓練集。研究表明,從任意數量的層傳遞權重可以提高重新訓練模型的準確性,微調後的模型提高了預測準確率。作者還對外部驗證集上模型的性能感興趣,評估了24個看不見的Zika節點的等級相關性,與之前的模型相比,僅在168個自由觸發序列上進行訓練的模型,以及使用初始訓練後的權重初始化但未凍結的轉移學習模型後,凍結權重可實現最高的等級相關性。藉助這些更具預測性的模型,作者將重新訓練的語言模型和基於CNN的模型集成早一起,可以平鋪任何基因組序列,並返回按其預測的開/關值排序的所有可能的支點傳感器。
為了說明方法價值,並在概念驗證演示中解決對傳感器的迫切需求,這些傳感器可以基於病原體基因組RNA快速檢測正在出現的傳染病,作者基於在SARSCoV-2基因組中的獨特性和與其他已知人類呼吸道疾病的正交性,確定了四個感興趣的區域,通過LM模型和基於CNN的模型共同選擇了支點序列,並通過實驗評估了預測結果。對於共同模型和單獨的轉移學習CNN(圖4g,h),作者發現「預測好的」和「預測不好的」傳感器之間存在顯著分離,這與模型結果一致。
為了進一步優化序列,作者構建了兩種優化方式:NuSpeak(圖4c)和STORM(圖4d),其中NuSpeak部分保留了原始觸發序列,保持了目標保真度,而STORM允許完全重新設計支點。在對100個支點的計算機分析中,NuSpeak可顯著提高大多數序列的ON / OFF比(圖4e)。儘管在優化過程中表現最好的性能可能會略有下降,但是這些序列可能已經位於局部適應度最大值中,這可能會使進一步的優化難以實現。考慮到當前生物電路設計流程的局限性,作者建立了一個框架,可以合理地重新設計電路組件,而無需保持與觸發序列的互補性。通過引入的SeqProp方法,將經過預訓練的基於CNN模型轉換為基於序列的STORM模型(圖4d),為了評估STORM的效用,作者優化了100個最差的實驗閾值(圖4f),優化後計算機預測的開/關值顯著增加。通過優化上述從SARS-CoV-2基因組構建的傳感器,在兩個平臺上通過實驗驗證結果,實驗結果顯示,在二種優化方式下,傳感器性能都有大幅提高。
鑑於模塊化,可編程核糖調節器在各種設計應用中的強大功能,迫切需要更好地集成計算和實驗方法。作者通過構建兩個深度學習框架STORM和NuSpeak來解決這一設計瓶頸,這兩個深度學習框架允許表徵,解釋和優化支點開關,並且僅需要觸發器的RNA或DNA序列作為輸入。相關實驗證明,STORM和NuSpeak能夠有效提高設計出的支點開關性能,並在稀疏數據上進行可靠預測,另外可以通過遷移學習來構建預測性很好的模型擴展到其他數據集上。
https://github.com/midas-wyss/engineered-riboregulator-ML
Valeri, J.A., Collins, K.M., Ramesh, P. et al. Sequence-to-function deep learning frameworks for engineered riboregulators. Nat Commun 11, 5058 (2020).
https://doi.org/10.1038/s41467-020-18676-2