深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold

2020-12-05 機器之心Pro

選自openreview.net

作者:Xinshi Chen等

機器之心編譯

參與:Panda、蛋醬

在新冠狀肺炎的疫情防控之戰中,人工智慧技術正發揮著重要作用。本文將介紹一種用於預測 RNA 二級結構的端到端深度學習模型 E2Efold,在結構預測方面具有顯著更優表現,同時大大縮短新冠病毒 RNA 二級結構預測時間,為病毒研究、藥物篩選、疫苗研製等工作提供更多助力。這項成果來自螞蟻金服的研究團隊,目前這篇論文已被 ICLR 2020 接收為 Talk 論文。

理解 RNA 二級結構的相關研究具有重要意義。二級結構是指 RNA 序列各個位置有氫健互補配對的鹼基。RNA 的三維結構往往是在先形成的二級結構的框架上摺疊而成的,所以知道二級結構就能夠用來表徵 RNA 結構、推斷功能機制、並設計新實驗。

此次引發大規模疫情的新型冠狀病毒即屬於 RNA 病毒的一種。但以往關於 RNA 二級結構的計算預測模型存在著固有約束條件,此前處於主導地位的基於 DP 的算法將搜索空間限制為嵌套結構,如此一來,一些包含假結結構的 RNA 二級結構的具有重要生物學意義的有效信息可能會排除在外。

論文地址:https://openreview.net/forum?id=S1eALyrYDH

論文提出的端到端深度學習模型 E2Efold 可用於預測 RNA 二級結構,該模型能有效地考慮 RNA 二級結果計算預測問題中的固有約束條件。E2Efold 的核心思想是直接預測 RNA 鹼基配對矩陣,並能使用一個展開式算法進行約束編程以作為深度架構強制執行約束的模板。

研究者在基準數據集進行了大量實驗,E2Efold 取得了優越的表現:相比於之前的最佳算法,它能預測得到顯著更優的結構(尤其是對於假結結構);同時在推理時間方面,E2Efold 能與之前最快的算法相媲美

這項成果可應用於新冠病毒的 RNA 二級結構預測等研究中,大大縮短新冠病毒的 RNA 二級結構的預測時間,顯著提升病毒研究、藥物篩選、疫苗研製等工作的效率,為面向新冠肺炎的抗疫戰提供助力。

研究概況

幾十年來,一直都有研究者在探索如何基於 RNA 的一級結構,通過計算方法來預測 RNA 的二級結構。大多數已有方法都假設二級結構是能量最小化的結果,即

。這個能量函數要麼是通過基於物理學的熱力學實驗估計的,要麼就是通過數據學習到的。

這些方法都存在一個問題,即所有可行的二級結構的搜索空間的規模會隨序列長度 L 的增長而指數級增長。為了能夠輕鬆地實現最小化,研究者通常假設鹼基配對具有某種嵌套結構(圖 2 左)且能量函數會成對地分解為因子。

這篇論文採用了另一個視角,其假設這種二級結構是一個前向函數的輸出,即

,然後可以用端到端的方式從數據中學習得到 θ。此外,還可以通過直接優化相關的損失來擬合這個前向模型。

這篇論文提出了一種端到端的深度學習解決方案。方案分為兩個階段。該架構的第一部分是一個基於 Transformer 的深度模型:深度評分網絡(Deep Score Network),其可以表徵可用於結構預測的序列信息。第二部分是一個多層網絡:後處理網絡(Post-Processing Network),該網絡能逐漸強制執行約束條件並限制輸出空間。這個網絡是基於一種用於求解約束優化問題的展開式算法而設計的。然後再將這兩個網絡耦合到一起,以一種端到端的方式聯合進行學習。由此,研究者將這個模型稱為 E2Efold。

在設計後處理網絡時,研究者使用了一種展開式算法作為歸納偏差,這使得 E2Efold 的輸出空間是受限的(見圖 3),從而能在數據有限時能更容易地學習得到優良的模型,還能減少過擬合的問題。然而,E2Efold 中編碼的約束是足夠靈活的,使得假結結構也能被包含在輸出空間中。總結來說,E2Efold 能在用於學習的模型偏置以及可行 RNA 結構的表達能力之間實現很好的平衡。

研究者在幾個 RNA 基準數據集上執行了實驗,對比了 E2Efold 和一些當前最佳的方法。結果表明 E2Efold 是更優的。

實驗評估使用了兩個基準數據集,參與比較的方法包括一些當前最佳方法和一些在 RNA 二級結構預測領域最常用的方法。實驗結果表明,E2Efold 在 RNAstralign 數據集上將 F1 分數提升了 29.7%,並且其推理 RNA 二級結構的速度與之前最高效的算法(LinearFold)一樣快。研究者也執行了控制變量研究,結果表明在後處理步驟中推動梯度是有必要的。

E2Efold:基於展開式算法的深度學習模型

(二級)深度評分網絡

E2Efold 的第一個部分是一個深度評分網絡 U_θ(x),其輸出是一個 L×L 的對稱矩陣。這個矩陣的每一項

都表示核苷酸 x_i 和 x_j 的配對分數。這個網絡的輸入 x 是 L × 4 維的 one-hot 嵌入。圖 4 展示了 U_θ 的具體架構。

其主要包含一個位置嵌入矩陣、一組堆疊的 Transformer 編碼器和一個 2D 卷積層,詳情如下:

藉助於神經網絡的表徵能力,研究者希望學習到有信息的 U_θ,使得 U_θ(x) 中分數更高的項能很好地對應於 RNA 結構中實際配對的鹼基。一旦計算出分數矩陣 U_θ(x),一種使用它的簡單方法是使用一個偏置項 s ∈ R(比如 s = 0),並令

時 A_ij = 1。但是,A_ij 的這種逐項獨立預測可能得到一個有違可行 RNA 二級結構約束的矩陣 A。

因此,為了確保預測得到的 A 是有效的,還需要一個後處理步驟。這個步驟可以在學習完 U_θ 後再單獨執行。但以這種方式解除鹼基配對評分與約束後處理過程的耦合關係可能會導致結果是次優的,此時這兩個階段中的錯誤無法同時得到考慮和調整。針對這個問題,研究者引入了一種後處理網絡,其可以與 U_θ 一起以端到端的方式訓練,以強制實施約束限制。

後處理網絡

E2Efold 的第二部分是一個後處理網絡 PP_φ,這是一個用於求解約束優化問題的展開式和參數化的算法。研究者將這個後處理步驟描述成了一個約束優化問題,並給出了求解它的算法。然後,該算法被用作模板,用於設計深度架構 PP_φ。

端到端訓練算法

給定一個包含輸入-輸出對樣本的數據集,E2Efold 的訓練過程類似於標準的基於梯度的監督學習。但是,RNA 二級結構預測問題常用的預測評估指標是 F1 分數、精度和召回率,而它們是不可微分的。

為此,研究者在這篇論文中定義了一種可微分的 F1 損失(Differentiable F1 Loss)。整體而言,該模型的優化目標是:

其中

,γ ≤ 1 是折現因子。

實驗

數據集

實驗使用了兩個基準數據集:(1)ArchiveII (Sloma & Mathews, 2016) 包含來自 10 種 RNA 類型的 3975 個 RNA 結構,這是一個在經典 RNA 摺疊方法中被廣為使用的基準數據集。(2)RNAStralign (Tan et al., 2017) 包含來自 8 種 RNA 類型的 37149 個結構,這是目前市面上最全面的 RNA 結構集合。在移除了冗餘的序列和結構之後,還剩下 30451 個結構。表 1 給出了這兩個數據集的統計情況。

基於 RNAStralign 的實驗結果

如表 2 所示,傳統方法得到的 F1 分數範圍在 0.433 到 0.624 之間,這與它們原論文所報告的結果是一致的。CONTRAfold 和 CDPfold 這兩種基於學習的方法在一些指標上優於傳統方法一些。而 E2Efold的表現則顯著更優,在所有指標上都至少超過其它方法 20%。

注意,對於幾乎所有其它方法,召回率通常都高於精度,而對 E2Efold 而言,精度高於召回率。這種現象的原因可能是 E2Efold 在神經網絡訓練過程中對約束進行了整合。圖 5 給出了每種方法的 F1 分數的分布。這個結果表明 E2Efold 能穩定地取得優良表現。

基於 ArchiveII 的無再訓練的實驗結果

E2Efold 在 ArchiveII 上的表現雖然不及在 RNAStralign 上結果,但仍在不同指標上都優於其它所有方法。此外,由於原始的 ArchiveII 數據集包含領域序列(子序列),研究者也移除這些領域進行了實驗,所得結果與表 3 類似。

假結結構預測

即使 E2Efold 並不排除假結結構,但仍不確定其是否真的能夠生成假結結構。因此,研究者選取了所有包含假結結構的序列,並在這個集合上計算了平均 F1 分數。此外,研究者還統計了被預測為假結的假結序列的數量,並將這個數量作為了真正例數(TP)。類似的,研究者還報告了真負例(TN)、假正例(FP)和假負例(FN),見表 5。大多數工具都排除了假結,而用於比較的 RNAstructure 則是可以預測假結結構的最著名的工具。

可視化

這裡給出了三個 RNA 序列的預測結構的可視化結果。在這些圖片中,紫色的線表示假結結構的邊。儘管 CDPfold 的 F1 分數比其它基準高,但其預測結果在視覺上離基本真值相差甚遠。在

所有基準中,RNAstructure 和 CONTRAfold 能得到相比而言更合理的可視化結果。但這兩種方法只能得到結構的粗略草圖,並不足夠好。在大多數情況下,E2Efold 得到的結果都與基本真值最相近。此外,在一些很長且難以預測的 RNA 序列上,E2Efold 取得了出人意料的優良表現。

相關焦點

  • ICLR,利用深度展開算法尋找RNA的二級結構,詳細實例乾貨哦
    而這篇ICLR文章採用深度學習和優化問題相結合的方式設計模型,其效果遠超傳統方法。下面就讓我們一起來學習一下文中解決問題的具體方法和設計思路。背景與挑戰RNA單鏈作為由四種鹼基(A,G,C,U)構成的單鏈,可以被看做一個一維序列。而它的二級結構可以被看做一張圖,配對的節點之間互相連邊。
  • 速度提高100萬倍,哈佛醫學院提出可預測蛋白質結構的新深度模型
    如上所示,AlQuraishi 提出的循環幾何網絡在預測速度上快了 6 到 7 個數量級。其中上表第一行是目前已經建立起來的複雜方法,這些方法嚴重依賴於模擬和採樣。第二行對應於協同演化(co-evolution)的方法,它也會有一個學習過程。最後一行就是作者提出的一種端到端的可微分方法。
  • 【深度學習】從冷凍電鏡電子密度圖識別蛋白質二級結構
    ,但在2016至2018年期間上傳到電子顯微鏡資料庫(EMDB)的大分子結構中,有超過50%的結構的解析度是在5到10埃甚至更低,這些中等解析度的冷凍電鏡譜(EMmap)很難用於結構的從頭模建,比如對於蛋白質,5-8埃解析度的冷凍電鏡譜只能看到部分的二級結構,而難以知曉完整的主鏈。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。
  • 「深度學習」通過學習勢能函數實現蛋白質的結構預測
    深度神經網絡(DNN)近期在蛋白質結構預測方面展現出了優異的表現,該領域常用的方法包括(1)胺基酸殘基間距預測(參考:AlphaFold開啟了新方向嗎)以及(2)相鄰殘基間的扭轉角預測(參考:最新蛋白結構預測模型-循環幾何網絡RGN),這些方法在往期的推送中都有所涉及。
  • Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度
    特別是MixNet-L模型在傳統的移動端設備條件(<600M FLOPS)下達到了最新的SOTA結果,ImageNet top-1精度為78.9%。這項研究提出了單個卷積核大小的局限性:我們既需要大卷積核來捕獲高解析度模式,又需要小卷積核來捕獲低解析度模式,以提高模型的準確性和性能。基於此觀察,本文提出了一種混合深度卷積(MDConv),它在單個卷積運算中混合了不同的卷積核大小,因此它可以輕鬆捕獲具有各種解析度的不同模式。
  • 螞蟻金服的高估值,一半要靠B端
    股票價格,是企業未來現金流的折現;金融科技公司的未來,則要靠C端和B端雙輪驅動。在本文中,我們不討論螞蟻集團的估值,我們看看金融科技的B端風口。四年前,金融科技就是炙手可熱的風口,四年後的今天,金融科技依然炙手可熱;四年前,C端零售金融幾乎撐起了金融科技的整個賽道;四年後的今天,B端產業鏈正成長為金融科技風口的新引擎。
  • 百度ICML論文:端對端中英文語音識別
    在這樣的系統中,建立端對端的深度學習,我們可以使用一系列的深度學習技巧:捕捉大的訓練集,訓練較大的模型與高性能計算,並且有條不紊地探索神經網絡的空間工作架構。本文詳細介紹了我們對於語音識別的貢獻,如模型架構,標記的大規模訓練數據集和計算規模。這其中還包括模型架構進行的廣泛調查,並且我們的數據採集管道使我們能夠創建比通常用於訓練語音識別系統更大的數據集。
  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    該論文主要提出了一種基於強化學習的端到端主動目標跟蹤方法,通過自定義獎賞函數和環境增強技術在虛擬環境中訓練得到魯棒的主動跟蹤器,並在真實場景中對模型的泛化能力進行了進一步的驗證。簡介主動目標跟蹤是指智能體根據視覺觀測信息主動控制相機的移動,從而實現對目標物體的跟蹤(與目標保持特定距離)。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    現在,哈佛醫學院的一位科學家使用了一種稱為深度學習的人工智慧來預測基於其胺基酸序列的任何蛋白質的三維結構。系統生物學家Mohammed AlQuraishi於4月17日在Cell Systems上在線報導,詳細介紹了一種計算確定蛋白質結構的新方法 - 實現與當前最先進方法相當的精確度,但速度提高了一百萬倍。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    可視化模擬AlQuraishi的蛋白質摺疊深度學習方法。該模型通過反覆預測結構(彩色)並將其預測與地面真實結構(灰色)進行比較來訓練。這是重複成千上萬的已知蛋白質,隨著模型的學習和提高其準確性的每一次迭代。蛋白質從二十多種的胺基酸中構建起來,這就像把字母從字母表中挑出來,連詞逐句構建文章。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    第一代AlphaFold依託蛋白質資料庫PDB作為訓練數據集,構建神經網絡,採用深度學習預測胺基酸殘基間的方向和距離,混合傳統算法Rosetta對蛋白質結構進行同源建模、結構優化;與此不同的是,第二代AlphaFold則將摺疊蛋白質視為「空間圖」,基於神經網絡系統進行「端到端」的訓練,使用了進化相關的胺基酸序列,多序列比對以及對胺基酸對的評估來優化結構預測。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 預測蛋白結構的AlphaFold,會砸了結構生物學家飯碗嗎?
    藍色為計算預測,綠色為實驗結果。圖源:deepmind.com在今年CASP比賽中,組織方在5月到8月間放出胺基酸序列,上百個參賽團隊可在5月至9月中旬間提交模型。隨著海量的序列和結構數據積累,預測結構不再是根據胺基酸序列「空算」,而有了學習的依據。利用這17萬公開的蛋白質序列和結構數據,以及已知序列而未知結構的蛋白質資料庫,DeepMind 對 Alphafold 進行訓練。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    代碼:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf根據DeepMind的介紹,在預測蛋白質結構的物理性質方面使用了兩種不同的方法來構建預測模型
  • 螞蟻金服與阿里雲攜手開創網際網路...
    在本次峰會上,螞蟻金服與阿里雲技術大V將分享資料庫、架構、移動端設計等方面的大規模實踐經驗。1.    海量用戶下的資料庫性能與可靠性保障資料庫是軟體系統中非常重要的基礎設施,傳統關係型資料庫在功能上很好的滿足了需求,但是在性能、可擴展性以及可靠性上則受到了較大的制約。
  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    但在另一方面,為機器人指定任務以進行強化學習則需要投入大量精力。大多數原有項目已經在嘗試引導物理機器人進行深度強化學習,這要求我們使用專門的傳感器建立獎勵或者研究任務,而機器人則利用其內部傳感器對獎勵指標進行測量。例如,機器人可以使用熱成像儀跟蹤液體運動,或者使用專門的計算機視覺系統跟蹤物體軌跡。
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    1972年,美國生物化學家克裡斯迪安·安芬森(Christian Boehmer Anfinsen)提出假設,胺基酸序列能完全決定蛋白質結構。但胺基酸序列摺疊的可能性多到數以億計,僅通過胺基酸序列,並不能得到完整的蛋白質結構,因此在過去幾十年裡,計算預測只是實驗手段的輔助。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    雷鋒網(公眾號:雷鋒網)AI科技評論按:ICLR 2017 將於4月24-26日在法國土倫舉行,屆時雷鋒網AI科技評論的編輯們也將前往法國帶來一線報導。在在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    這通常被稱為幾何深度學習問題 [7]。多變的結構和任務:圖具備多樣化的結構,因此比較複雜。例如,圖可以是同質的也可以是異質的,可以是加權的也可以不加權,可以是有符號的也可以是無符號的。此外,圖任務也有很多種,從節點問題(如節點分類和連接預測)到圖問題(如圖分類和圖生成)不一而足。多變的結構和任務需要不同的模型架構來解決特定的問題。