Nat. Commun.|深度學習探索可編程RNA開關

2020-12-22 DrugAI

作者 | 賴樂珊審稿 | 周珍冉

今天給大家介紹的是一篇發表在Nature Communications 的文章「A deep learning approach to programmable RNA switches」,工程RNA元件是能夠檢測小分子、蛋白質和核酸(合成生物學成分)的可編程工具。增強深度學習的模式識別可以用於預測合成生物學成分。本文用深度神經網絡(DNN)來預測合成生物學中的經典核糖開關模型——toehold開關。為了促進DNN訓練,作者在體內合成並表徵了涵蓋23個病毒基因組和906個人類轉錄因子的91,534個toehold開關的數據集。經過核苷酸序列訓練的DNN表現(R 2 = 0.43–0.70)優於前沿的熱力學和動力學模型(R 2= 0.04–0.15),且允許實行人類可理解的注意力可視化(VIS4Map)識別成功和失敗的模式。本文研究表明深度學習方法可用於RNA合成生物學中的功能預測。

1

背景

具有特定生物學功能的工程RNA分子在合成生物學中發揮著重要作用,特別是作為小分子、蛋白質和核酸的可編程反應元件;例如作為核糖開關、核糖調節因子和核酶,且在體內和體外都可應用。工程RNA分子功能的多樣性給這種新興的合成生物學預測模型的設計和驗證帶來挑戰。

目前,用於揭示RNA序列、結構和行為之間基本關係的研究主要集中在機械熱力學建模和低通量實驗上,這些實驗往往不能提供足夠的預測性和可操作性的信息來幫助設計RNA工具。而相比之下,由一系列計算構成的深度學習是非常適用於複雜且高度組合的生物學問題的特徵識別,比如合成RNA工具的序列設計空間。但是,深度學習在RNA合成生物學中預測功能的應用受到數據集不足的限制。

Toehold開關是一類多功能原核生物核糖調節劑,可以通過完全可編程的反式RNA觸發序列的存在誘導,代表合成生物學中的基準RNA元件;此RNA合成生物學組件功能多樣,既可以在體內作為遺傳線路組件,也能作為體外無細胞蛋白質合成(CFPS)系統核的酸診斷工具。類似於其他RNA合成生物學工具,相當一部分toehold開關性能較差,即使已經努力基於低通量數據集來建立合理的、機械的規則以提高性能的測試實驗,其實際效用還沒有定論。考慮到toehold開關設計的廣泛適用性,本文開發了一個深度學習平臺,以預測toehold開關作為合成生物學中的經典RNA開關模型的功能。

2

方法

首先使用高通量DNA合成和測序管道來擴展可用的toehold數據集的大小,以表徵超過105個toehold開關。然後使用這個全面的數據集來證明直接用開關 RNA序列訓練的深度神經網絡在預測toehold開關功能方面可以優於熱力學和動力學分析。此外,通過利用核苷酸互補矩陣輸入表示法來可視化選定模型中重要的學習到的二級結構模式,從而提高深度學習方法的透明度。這種注意力可視化技術,我們稱之為VIS4Map(可視化二級結構顯著圖),此技術可以通過深度學習模型用來準確預測toehold轉換功能的二級結構來識別RNA模塊的成功和失敗模式。所得的數據集、模型和可視化分析(圖1)在高通量RNA合成生物學工具設計的驗證和可解釋性方面向前邁出了實質性的一步,超越了目前機械RNA二級結構建模的限制。

為了最大化有助於二級結構的開關區域中的序列多樣性,作者選擇了來自於Green等設計的第一代toehold開關架構。病毒基因組於2018年11月6日從https://www.ncbi.nlm.nih.gov/genome/viruses/獲得。使用230 bp的寡核苷酸設計了244,000個toehold開關突變體,由公司訂購併合成。配置Flow-seq管道;進行深度測序和讀取計數分析;控制庫的質量:重複管道的ON / OFF相關的測量,比較相關性R2;進行無細胞開關驗證;使用ViennaRNA,Kinfold和RBS計算器進行計算。為了比較數據集中測得的最佳和最差突變體之間的序列水平基序,在觀察到的功能值尾部進行了k-mer搜索,以尋找過度代表的序列基序。

深度學習模型架構:分別使用了MLP-理性特徵;MLP-OneHot seq;MLP-混合理性特徵/ OneHot seq;CNN-OneHot seq;CNN-2D互補圖和LSTM-OneHot seq;考慮到由於模型缺乏驗證集的改而觸發的20個epoch的提前終止,所有模型都最多使用300個epochs進行訓練。所有模型的批處理大小為64 *(1 + ngpus),其中ngpus定義為模型訓練期間使用的圖形處理單元的數量。所有訓練的回歸模型均使用「十倍交叉驗證」對報告的指標進行了驗證,而分類訓練的模型則按在三個改組的測試集上進行了評估。

數據平衡:作者嘗試了幾種方法來解決不平衡OFF狀態數據的局限性,而有趣的是,得到的結果僅對由R 2、AUROC和AUPRC測得的模型的精度產生了很小的改進。這表明,通過使用未轉換和不平衡的數據,本文的模型已經可以在涉及的架構下實現幾乎最佳的性能。

互補矩陣和VIS4Map:此技術可以用於生成熱圖編碼的在空間上與互補性圖中的toehold區域相關的顯著性圖圖像,從而可以進行準確的預測。

3

結果

庫合成與驗證:文章的toehold開關文庫由244,000個觸發序列設計和合成,該觸發序列涵蓋了23種致病病毒的完整基因組、906個人類轉錄因子的整個編碼區和10,000個隨機序列。選擇RNA工具後,進行文庫合成和表徵,並使用深度神經網絡(DNN)進行分析,以提供功能預測和生物學見解(圖1)。作者從一個合成的寡核苷酸庫中生成了兩個用於ON和OFF狀態的構建文庫。對於Flow-seq toehold開關庫的特性和觸發本體如圖2所示。

使用RNA二級結構模型的理性分析:對生物學序列數據的K-mer搜索通常用於發現基序,在我們的數據集中發現了某些過表示的基序(圖 3a),但利用這些並不能顯著改善開關行為的功能預測。對於30個最新的熱力學功能,獲得了Pearson相關性和核糖體結合位點(RBS)計算器的輸出(圖 3b),發現當使用較大的數據集分析這些理性特徵時,它們不能很好地預測toehold開關功能,雖然可測量,但其相關性對於在特定RNA合成生物學工具的計算機輔助設計中的實際應用而言太弱。

使用多層感知器(MLP)模型改進的預測:以MLP模型為基本體系結構(圖3c)。首先在數據集上訓練了一個三層MLP模型,其輸入包含先前計算的30個熱力學有理特徵。當在回歸模式下訓練時,該模型能夠得到在R2和平均絕對誤差(MAE)上比單個理性功能或RBS計算器更好的預測(R2:ON=0.35,OFF=0.25,ON/OFF=0.20)(圖3d、e)。當該模型在分類模式下訓練時, 它在接收者-操作者曲線(AUROC)下達到了0.76,在精度-召回曲線(AUPCRc)下達到0.18。MLP模型的表現略好於訓練在相同理性特徵上的邏輯回歸(圖d-f),這表明與更簡單的非層級模型相比,MLP架構能夠從這些特徵中提取出更高級的模式。

與有理特徵相比,在純序列輸入上訓練時性能的提高表明,當對toehold開關序列進行熱力學計算時,會出現顯著的信息丟失。結果表明,雖然有理特徵的使用可能有助於提取toehold開關功能的潛在相關信息,但如果給出足夠的訓練數據,只有one-hot僅序列的MLP模型可以在沒有先驗假設的情況下恢復這些信息。

另外用兩輪驗證來評估該純序列MLP模型的生物學泛化程度,當分別在有理功能、one-hot序列和串聯輸入上進行訓練時,該MLP模型獲得了0.70、0.81和0.79的AUROC(圖3g)。當直接根據核苷酸序列而不是熱力學特徵來訓練模型時,即使是對於外部數據集,性能也有所改善,這表現了使用深度學習和高通量數據集對RNA合成生物學工具進行建模的價值,消除了目前對機械理性參數的假設。

高容量模型的預測性能:在一個熱序列輸入上訓練了CNN,在一個熱序列輸入上訓練了LSTM,並在二維one-hot互補圖表示輸入上訓練了CNN。在對這些模型進行回歸模式下的R 2和MAE以及分類模式下的AUROC和AUPRC的評估之後(圖 4a–d),我們得出的結論是,與序列相比,這些神經網絡體系結構並不能產生更好的預測模型前文所述的基於三層的MLP。在這些情況下,增加的模型容量會導致擬合不足或過度擬合,因此需要更多的訓練示例或改進的微調以加速有效的訓練。

在one-hot序列輸入上訓練CNN和LSTM,在二維和one-hot互補地圖表示輸入上訓練CNN。在評估了回歸模式下的R2和MAE以及分類模式下的AUROC和AUPRC(圖4a-d)後,得出結論:與前面描述的基於序列的三層MLP相比,這些神經網絡結構並沒有帶來更好的預測。在這些情況下,增加模型容量會導致過低或過高的擬合,需要額外的訓練實例或改進的微調來加速有效的訓練。

可視化學習到的RNA二級結構基序:為了實現這種可視化,作者在二維核苷酸互補圖表示上訓練了CNN(圖 5a),以便在在這個二級結構空間中進行注意模式可視化。由CNN在互補圖輸入上訓練產生的顯著圖主要包含對角線特徵,這些特徵顯示出與NUPACK基於其MFE計算的預測MFE結構在統計上顯著一致的程度(圖5b,c)。因此,在沒有事先了解NUPACK用於計算MFE的算法或參數的情況下,該CNN能夠學習與NUPACK類似的抽象概念,使用這些抽象概念利用互補圖輸入表示法直觀地可視化潛在的相關RNA二級結構。作者將這種解釋RNA深度學習模型的方法命名為可視化二級結構顯著圖(VIS4Map)

當在回歸模式和分類模式下對互補圖表示進行訓練時,VIS4Map的表現明顯優於對理性熱力學特徵進行訓練的MLP,且該CNN模型產生的顯著圖顯示了清晰的對角二級結構特徵(圖5d)。通過平均顯著圖並發現共享結構與開關髮夾的設計目標結構相對應,證實了這些特徵的生物學相關性(圖5e)。進一步分析平衡結構之外的學習特徵,使用toehold開關OFF信號對顯著圖進行排序(圖5f);發現被二級結構抑制的RBS的遺漏表達可能是由於抑制結構錯誤摺疊成不太穩定的動力學中間構象(圖5f右)。

4

討論

本文提出了一種高通量的DNA合成、測序和深度學習管道,用於可編程RNA開關的設計和分析。證明了使用深度學習方法直接分析序列而不是依賴於機械熱力學和動力學模型的計算的好處;也證明出本文模型的強大生物學泛化能力。作者希望這項工作能夠鼓勵使用高通量數據收集來訓練深度學習系統,並與不受熱力學或動力學二級結構模型限制的更具解釋性的神經網絡架構配合使用,以改善RNA合成生物學的預測和見解。

代碼

https://github.com/lrsoenksen/CL_RNA_SynthBio

參考資料

Angenent-Mari, N.M., Garruss, A.S., Soenksen, L.R. et al. A deep learning approach to programmable RNA switches. Nat Commun 11, 5057 (2020).

https://doi.org/10.1038/s41467-020-18677-1

相關焦點

  • 90多個國家的孩子都在學習的【探索教育編程課程】開放限時早鳥價!
    02  課程學習過程  Discovery Education Coding探索教育編程課程強調學習的過程。在編程過程中孩子可以通過指導視頻、編程術語解釋、任務關鍵提示來進行自主編程學習,學習結束後學生可以應用所學內容,創造專屬的APP。同時,孩子可以將APP分享到DE分享平臺,與全球小夥伴交流技術,改編成更好創意的程序!
  • 「探索雙線融合 走向深度學習」教育科研論壇:虛擬實驗課亮相
    信息學科《創意編程:海底暢遊》課程上,同學們通過VR設備,身臨其境暢遊海底世界,讓學習更有體驗性、趣味性。此次觀摩課還包含課外經典閱讀指導課、雙師書法課、項目式研究性學習等,泉州、廈門、福州三地老師同臺執教,課堂圍繞「探索雙線融合,走向深度學習」進行探究學習。
  • 詳解:少兒編程學什麼?它和成人編程教育有何不同?
    少兒編程教育主要面向K12青少兒,採用由淺到深的教學方法循序漸進,從簡單易理解的實物編程基礎課到編程進階課、跨學科學習及綜合應用,逐步探索,促進孩子思維的全面開發。以芯恆安智能家居5.0「ai 玩空間」版為例,將居家生活智能化與兒童 AI 編程教育相融合,為家庭定製智慧生活的同時,也讓智能家居「變身」學編程玩 AI 的教具。
  • 寓教於樂,寓學於樂,暑假學習計劃大作戰:Matatalab編程機器人
    全部配件取出之後,全家福:編程板、控制塔、編程機器人、充電數據線、46塊編程塊、8個障礙道具、收納盒和可擦拭水彩筆等。收納盒對於這些小配件最實用了,平時不玩的時候就可以收納起來,也不用擔心孩子粗心大意在家中四處放了,每次玩完後,我都會讓兒子自己收納整理好,培養他整理物品的習慣。
  • GPU是深度學習系統所必需的嗎?
    直到開始接觸人工智慧和數據科學領域,尤其是深度學習之後,我才意識到了顯卡的真正潛力。就像夢想照進了現實——只用一片簡單的顯卡,就能同時滿足學習和研究的需求,真是妙啊。(註:GPU和顯卡是一個意思,在本文中互換使用。)經過優化的GPU可用於訓練人工智慧和深度學習系統,因為它們可同時處理多個計算。這些系統有大量的內核,可以更好地計算大量並行進程。
  • 可編程控制器的編程原則、方法以及常用指令
    可編程控制器的外形見圖10-12。現在的可編程控制器不僅能進行邏輯控制,還可以進行數值運算、數據處理,具有分支、中斷、通信及故障自診等功能。可編程控制器把計算機技術與繼電器控制技術很好地融合在一起,最新的可編程控制器還可以直接把數字控制技術加進去,並可以與監控計算機聯網,因此它的應用幾乎涉及所有的工業企業。可編程控制器有以下特點。(1)可靠性高,抗幹擾性強。
  • 淺談程式語言合理的學習順序
    再之後想學就是返回來學習 C 語言,彙編語言,再加上一點硬體知識和計算機體系結構的學習。這時你會發現萬能的 C 其實也不是能力最強大的,C 只是彙編的高層抽象與封裝,彙編的世界裡是很神奇和強大的,幾近可以為所欲為。
  • 學習機器人編程的好處
    如果再不從小讓孩子學習機器人編程教育,掌握更多程式語言,那未來就out啦。格物斯坦小坦克可以告訴你關於機器人編程要不要學的答案。 因此教育培訓機構又熱鬧起來,青少年編程培訓班尤其火爆,不少家長心存疑慮:人工智慧時代大發展,可這編程培訓班的火爆會不會只是跟風炒作的產物?到底該不該讓孩子學呢? 近兩年,少兒編程熱度異乎尋常,或許與擇校有關。
  • 深度學習面試寶典(含數學,機器學習,深度學習,計算機視覺等)
    深度學習面試寶典這是一個在 github 上開源的 深度學習面試寶典,收集和整理了很多相關的知識。相關收集內容 自我介紹 數學 機器學習 深度學習 強化學習 計算機視覺 傳統圖像處理 自然語言處理 SLAM 推薦算法 數據結構與算法 程式語言 深度學習框架 面試經驗 面試技巧 其它深度學習001 神經網絡中的Epoch、Iteration、Batchsize神經網絡中epoch與iteration是不相等的batchsize:
  • 自動化行業中可編程控制器的功能與優點
    可編程邏輯控制器(plc)在控制系統中得到了廣泛的應用,沒有可編程邏輯控制器,控制系統就像缺乏靈魂一樣。為了提高大家對可編程邏輯控制器的理解,本文將探討為什麼可編程邏輯控制器可以取代繼電器控制技術。如果你對可編程邏輯控制器感興趣,可以繼續閱讀。
  • KUBO編程幫助學習編碼技巧,為教育事業助力
    眾所周知,兒童時期正是孩子培養學習思維的黃金階段,這個階段思維培養教育至關重要。KUBO編程成立至今,主要是針對四歲至十歲以上小朋友展開早期編程教育,通過遊戲的方式培養和提升邏輯思維,進而掌握編程的技巧,以適應網際網路世界的發展。
  • 編程貓新產品「探月少兒編程」上線,重拳布局移動化編程時代
    據悉,探月少兒編程,是編程貓旗下針對8-12歲孩子定製研發的多學科深度融合編程課,支持移動端在線學習,力求極大程度降低編程門檻,滿足用戶隨時隨地學編程的需求。該課程於2019年11月底正式上線,僅4個月內,已服務超過5萬位學員。編程貓創始人兼CEO李天馳曾多次表示,「每個中國孩子都應該有機會上一堂編程課」。
  • 兒童學習編程該選擇機器人編程還是Scratch編程
    首先,從當今社會發展的大趨勢來看,兒童學習程式語言也是一個大的發展趨勢,隨著教育領域與人工智慧技術的結合越來越緊密,兒童掌握一定的編程知識,對於未來的學習也會有一定的積極意義。兒童在學習編程知識的過程中,會面臨兩種比較常見的選擇,一種是學習機器人的組裝和設計,另一種是學習圖形化的程式語言,比如Scratch就是比較典型的代表,這兩種選擇本身既有各自的優缺點,同時也存在一定的聯繫,所以可以根據孩子的興趣愛好和能力特點來進行選擇。
  • 編程貓聯合CAAI開啟線上科普,編程貓秦曾昌教授受邀成為首場直播講師
    近日,由中國人工智慧學會(CAAI)主辦,編程貓(深圳點貓科技有限公司)、西安國家民用航天產業基地管理委員會承辦的CAAI線上科普於6月1日正式開始線上直播。在首場線上科普中,秦曾昌教授以「機器如何學習」為視角展開,從理論到實踐深入淺出地探索機器學習的世界, 秦曾昌教授指出機器學習作為人工智慧的核心,是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科,並在直播中回顧了計算機發展、人工智慧發展的過程,機器學習和深度學習的現狀,以及關於機器學習現有的研究創新和背後一些有意思的規律。
  • 為什麼孩子要學習編程
    新媒體和新技術不斷湧現,越來越多的融入我們的生活、思維和學習方式。但是這種融入需要很長的時間,直到現在,孩子們在課堂上學習的技能與他們在職業生涯以及整個社會中實際需要的技能之間仍然存在較大的分歧。」 ——麻省理工學院媒體實驗室的學習研究教授 Mitchel Resnick,致力於開發新技術和活動,讓兒童參與創造性的學習體驗。
  • 飛槳深度學習開源框架2.0搶先看:成熟完備的動態圖開發模式
    允中 發自 凹非寺量子位 編輯 | 公眾號 QbitAI百度飛槳於近期宣布,深度學習開源框架2.0搶先版本正式發布,進入2.0時代。其中一項重大升級,就是推出更加成熟完備的命令式編程模式,即通常說的動態圖模式。
  • 學習樂高、機器人編程、少兒編程的區別是什麼?
    我是一名少兒編程教師,80後,我們80後這代人似乎永遠沒有成為大家的生活談資,活在了90後的光環下,隨著1990年出生的90後也邁入了30歲,我們才突然意識到,時間的輪迴,大家都一樣進入了生活的循環,我見到了太多90後的家長,孩子在幼兒園或者小學階段,來到我們學習中心學習科創類的課程
  • 深度學習框架簡史:TF和PyTorch雙頭壟斷,未來十年迎來黃金時期
    它們是機器學習革命的腳手架:TensorFlow 和 PyTorch 等深度學習框架的廣泛使用,使得許多 ML 從業者能夠使用適合的領域特定的程式語言和豐富的構建模塊更容易地組裝模型。回顧深度學習框架的演變,我們可以清楚地看到深度學習框架和深度學習算法之間的緊密耦合關係。這種相互依賴的良性循環推動了深度學習框架和工具的快速發展。
  • 推薦7款適合兒童學習的程式語言
    導讀:編程是當前需求比較旺盛的職業道路,因此,很多家長都希望自己的孩子長大後成為軟體程式設計師,或者起碼擁有一些編程思維。如果您想讓孩子學習編程從哪裡開始呢?在此兒童節之際向各位推薦7款適合兒童的程式語言。
  • 飛凡象編程與機器人編程廠商童心制物達成深度合作
    少兒編程教育:通過編程遊戲啟蒙、可視化圖形編程等課程,從而理解「並行」、「事件處理」、「目標實現」的概念,優化孩子的邏輯思維模式,鍛鍊孩子空間想像力,提升孩子整理信息,融會貫通等能力。本次合作飛凡象編程也正是看重童心制物在專業和創新上的實力,作為編程教育行業的實力品牌,飛凡象編程教育因其聚焦線下編程教育培訓及全部由工程師教學的特色在2019年脫穎而出,收購了文化課培訓機構鯨楚學堂,成為了培訓行業的一匹黑馬。