作者 | 賴樂珊審稿 | 周珍冉
今天給大家介紹的是一篇發表在Nature Communications 的文章「A deep learning approach to programmable RNA switches」,工程RNA元件是能夠檢測小分子、蛋白質和核酸(合成生物學成分)的可編程工具。增強深度學習的模式識別可以用於預測合成生物學成分。本文用深度神經網絡(DNN)來預測合成生物學中的經典核糖開關模型——toehold開關。為了促進DNN訓練,作者在體內合成並表徵了涵蓋23個病毒基因組和906個人類轉錄因子的91,534個toehold開關的數據集。經過核苷酸序列訓練的DNN表現(R 2 = 0.43–0.70)優於前沿的熱力學和動力學模型(R 2= 0.04–0.15),且允許實行人類可理解的注意力可視化(VIS4Map)識別成功和失敗的模式。本文研究表明深度學習方法可用於RNA合成生物學中的功能預測。
1
背景
具有特定生物學功能的工程RNA分子在合成生物學中發揮著重要作用,特別是作為小分子、蛋白質和核酸的可編程反應元件;例如作為核糖開關、核糖調節因子和核酶,且在體內和體外都可應用。工程RNA分子功能的多樣性給這種新興的合成生物學預測模型的設計和驗證帶來挑戰。
目前,用於揭示RNA序列、結構和行為之間基本關係的研究主要集中在機械熱力學建模和低通量實驗上,這些實驗往往不能提供足夠的預測性和可操作性的信息來幫助設計RNA工具。而相比之下,由一系列計算構成的深度學習是非常適用於複雜且高度組合的生物學問題的特徵識別,比如合成RNA工具的序列設計空間。但是,深度學習在RNA合成生物學中預測功能的應用受到數據集不足的限制。
Toehold開關是一類多功能原核生物核糖調節劑,可以通過完全可編程的反式RNA觸發序列的存在誘導,代表合成生物學中的基準RNA元件;此RNA合成生物學組件功能多樣,既可以在體內作為遺傳線路組件,也能作為體外無細胞蛋白質合成(CFPS)系統核的酸診斷工具。類似於其他RNA合成生物學工具,相當一部分toehold開關性能較差,即使已經努力基於低通量數據集來建立合理的、機械的規則以提高性能的測試實驗,其實際效用還沒有定論。考慮到toehold開關設計的廣泛適用性,本文開發了一個深度學習平臺,以預測toehold開關作為合成生物學中的經典RNA開關模型的功能。
2
方法
首先使用高通量DNA合成和測序管道來擴展可用的toehold數據集的大小,以表徵超過105個toehold開關。然後使用這個全面的數據集來證明直接用開關 RNA序列訓練的深度神經網絡在預測toehold開關功能方面可以優於熱力學和動力學分析。此外,通過利用核苷酸互補矩陣輸入表示法來可視化選定模型中重要的學習到的二級結構模式,從而提高深度學習方法的透明度。這種注意力可視化技術,我們稱之為VIS4Map(可視化二級結構顯著圖),此技術可以通過深度學習模型用來準確預測toehold轉換功能的二級結構來識別RNA模塊的成功和失敗模式。所得的數據集、模型和可視化分析(圖1)在高通量RNA合成生物學工具設計的驗證和可解釋性方面向前邁出了實質性的一步,超越了目前機械RNA二級結構建模的限制。
為了最大化有助於二級結構的開關區域中的序列多樣性,作者選擇了來自於Green等設計的第一代toehold開關架構。病毒基因組於2018年11月6日從https://www.ncbi.nlm.nih.gov/genome/viruses/獲得。使用230 bp的寡核苷酸設計了244,000個toehold開關突變體,由公司訂購併合成。配置Flow-seq管道;進行深度測序和讀取計數分析;控制庫的質量:重複管道的ON / OFF相關的測量,比較相關性R2;進行無細胞開關驗證;使用ViennaRNA,Kinfold和RBS計算器進行計算。為了比較數據集中測得的最佳和最差突變體之間的序列水平基序,在觀察到的功能值尾部進行了k-mer搜索,以尋找過度代表的序列基序。
深度學習模型架構:分別使用了MLP-理性特徵;MLP-OneHot seq;MLP-混合理性特徵/ OneHot seq;CNN-OneHot seq;CNN-2D互補圖和LSTM-OneHot seq;考慮到由於模型缺乏驗證集的改而觸發的20個epoch的提前終止,所有模型都最多使用300個epochs進行訓練。所有模型的批處理大小為64 *(1 + ngpus),其中ngpus定義為模型訓練期間使用的圖形處理單元的數量。所有訓練的回歸模型均使用「十倍交叉驗證」對報告的指標進行了驗證,而分類訓練的模型則按在三個改組的測試集上進行了評估。
數據平衡:作者嘗試了幾種方法來解決不平衡OFF狀態數據的局限性,而有趣的是,得到的結果僅對由R 2、AUROC和AUPRC測得的模型的精度產生了很小的改進。這表明,通過使用未轉換和不平衡的數據,本文的模型已經可以在涉及的架構下實現幾乎最佳的性能。
互補矩陣和VIS4Map:此技術可以用於生成熱圖編碼的在空間上與互補性圖中的toehold區域相關的顯著性圖圖像,從而可以進行準確的預測。
3
結果
庫合成與驗證:文章的toehold開關文庫由244,000個觸發序列設計和合成,該觸發序列涵蓋了23種致病病毒的完整基因組、906個人類轉錄因子的整個編碼區和10,000個隨機序列。選擇RNA工具後,進行文庫合成和表徵,並使用深度神經網絡(DNN)進行分析,以提供功能預測和生物學見解(圖1)。作者從一個合成的寡核苷酸庫中生成了兩個用於ON和OFF狀態的構建文庫。對於Flow-seq toehold開關庫的特性和觸發本體如圖2所示。
使用RNA二級結構模型的理性分析:對生物學序列數據的K-mer搜索通常用於發現基序,在我們的數據集中發現了某些過表示的基序(圖 3a),但利用這些並不能顯著改善開關行為的功能預測。對於30個最新的熱力學功能,獲得了Pearson相關性和核糖體結合位點(RBS)計算器的輸出(圖 3b),發現當使用較大的數據集分析這些理性特徵時,它們不能很好地預測toehold開關功能,雖然可測量,但其相關性對於在特定RNA合成生物學工具的計算機輔助設計中的實際應用而言太弱。
使用多層感知器(MLP)模型改進的預測:以MLP模型為基本體系結構(圖3c)。首先在數據集上訓練了一個三層MLP模型,其輸入包含先前計算的30個熱力學有理特徵。當在回歸模式下訓練時,該模型能夠得到在R2和平均絕對誤差(MAE)上比單個理性功能或RBS計算器更好的預測(R2:ON=0.35,OFF=0.25,ON/OFF=0.20)(圖3d、e)。當該模型在分類模式下訓練時, 它在接收者-操作者曲線(AUROC)下達到了0.76,在精度-召回曲線(AUPCRc)下達到0.18。MLP模型的表現略好於訓練在相同理性特徵上的邏輯回歸(圖d-f),這表明與更簡單的非層級模型相比,MLP架構能夠從這些特徵中提取出更高級的模式。
與有理特徵相比,在純序列輸入上訓練時性能的提高表明,當對toehold開關序列進行熱力學計算時,會出現顯著的信息丟失。結果表明,雖然有理特徵的使用可能有助於提取toehold開關功能的潛在相關信息,但如果給出足夠的訓練數據,只有one-hot僅序列的MLP模型可以在沒有先驗假設的情況下恢復這些信息。
另外用兩輪驗證來評估該純序列MLP模型的生物學泛化程度,當分別在有理功能、one-hot序列和串聯輸入上進行訓練時,該MLP模型獲得了0.70、0.81和0.79的AUROC(圖3g)。當直接根據核苷酸序列而不是熱力學特徵來訓練模型時,即使是對於外部數據集,性能也有所改善,這表現了使用深度學習和高通量數據集對RNA合成生物學工具進行建模的價值,消除了目前對機械理性參數的假設。
高容量模型的預測性能:在一個熱序列輸入上訓練了CNN,在一個熱序列輸入上訓練了LSTM,並在二維one-hot互補圖表示輸入上訓練了CNN。在對這些模型進行回歸模式下的R 2和MAE以及分類模式下的AUROC和AUPRC的評估之後(圖 4a–d),我們得出的結論是,與序列相比,這些神經網絡體系結構並不能產生更好的預測模型前文所述的基於三層的MLP。在這些情況下,增加的模型容量會導致擬合不足或過度擬合,因此需要更多的訓練示例或改進的微調以加速有效的訓練。
在one-hot序列輸入上訓練CNN和LSTM,在二維和one-hot互補地圖表示輸入上訓練CNN。在評估了回歸模式下的R2和MAE以及分類模式下的AUROC和AUPRC(圖4a-d)後,得出結論:與前面描述的基於序列的三層MLP相比,這些神經網絡結構並沒有帶來更好的預測。在這些情況下,增加模型容量會導致過低或過高的擬合,需要額外的訓練實例或改進的微調來加速有效的訓練。
可視化學習到的RNA二級結構基序:為了實現這種可視化,作者在二維核苷酸互補圖表示上訓練了CNN(圖 5a),以便在在這個二級結構空間中進行注意模式可視化。由CNN在互補圖輸入上訓練產生的顯著圖主要包含對角線特徵,這些特徵顯示出與NUPACK基於其MFE計算的預測MFE結構在統計上顯著一致的程度(圖5b,c)。因此,在沒有事先了解NUPACK用於計算MFE的算法或參數的情況下,該CNN能夠學習與NUPACK類似的抽象概念,使用這些抽象概念利用互補圖輸入表示法直觀地可視化潛在的相關RNA二級結構。作者將這種解釋RNA深度學習模型的方法命名為可視化二級結構顯著圖(VIS4Map)
當在回歸模式和分類模式下對互補圖表示進行訓練時,VIS4Map的表現明顯優於對理性熱力學特徵進行訓練的MLP,且該CNN模型產生的顯著圖顯示了清晰的對角二級結構特徵(圖5d)。通過平均顯著圖並發現共享結構與開關髮夾的設計目標結構相對應,證實了這些特徵的生物學相關性(圖5e)。進一步分析平衡結構之外的學習特徵,使用toehold開關OFF信號對顯著圖進行排序(圖5f);發現被二級結構抑制的RBS的遺漏表達可能是由於抑制結構錯誤摺疊成不太穩定的動力學中間構象(圖5f右)。
4
討論
本文提出了一種高通量的DNA合成、測序和深度學習管道,用於可編程RNA開關的設計和分析。證明了使用深度學習方法直接分析序列而不是依賴於機械熱力學和動力學模型的計算的好處;也證明出本文模型的強大生物學泛化能力。作者希望這項工作能夠鼓勵使用高通量數據收集來訓練深度學習系統,並與不受熱力學或動力學二級結構模型限制的更具解釋性的神經網絡架構配合使用,以改善RNA合成生物學的預測和見解。
代碼
https://github.com/lrsoenksen/CL_RNA_SynthBio
參考資料
Angenent-Mari, N.M., Garruss, A.S., Soenksen, L.R. et al. A deep learning approach to programmable RNA switches. Nat Commun 11, 5057 (2020).
https://doi.org/10.1038/s41467-020-18677-1