天然的和工程化的非編碼RNA都不斷出現新的調節作用,其中許多具有特定的二級和三級結構對其功能至關重要。因此,越來越需要開發能夠快速表徵複雜RNA群體內結構特徵的技術。我們已經開發了一種高通量技術SHAPE-Seq,它可以同時測量數百個任意序列RNA分子的定量,單核苷酸解析度二級和三級結構信息。形狀SEQ聯合收割機小號擇2&39;- ħ ydroxyl 一個 cylation分析由p絞刀,決定ë xtension(SHAPE)化學(6)配有一個多路復用分層條形碼和深度測序策略,在體外結構探測在一個試管實驗(啟用並行圖.1)。我們還開發了一種最大似然(ML)估計策略,用於推斷核苷酸反應性,該策略嚴格結合了來自同序對照實驗的信息(7)。結合生物信息學軟體來處理,分類和映射原始序列讀取,這將創建一個全自動的數據分析管道。此外,反應性SHAPE是該流水線的輸出已經很好地建立,並且可以在現有的RNA摺疊算法來確定每個RNA分子(所述結構被立即使用8,9)。
在這項工作中,我們表明SHAPE-Seq能夠準確地推斷枯草芽孢桿菌 RNase P特異性結構域的模型RNA摺疊的二級和三級結構信息。此外,我們顯示SHAPE-Seq可以從單個樣品中數百個RNase P RNA的條形碼副本中推斷出此信息。最後,我們使用該技術同時推斷由於單點突變而引起的RNase P的局部結構變化,並確定金黃色葡萄球菌質粒pT181轉錄減毒劑的兩個變體的結構,所有這些都在同一混合物中。
SHAPE-Seq的目標是通過同時對RNA種類的混合物進行SHAPE探測來準確推斷核苷酸解析度的結構信息(圖1)。為了明確區分物種,實驗中的每個RNA均在其3&39;尾部的附加條形碼(稱為「手柄」 )進行標記(圖1A)。當cDNA庫同時作為單個混合物一起測序時,手柄將cDNA片段識別為來自(+)或(-)通道。使用配對末端的Illumina測序(13)進行cDNA的測序。為了將所需的Illumina測序銜接子添加到cDNA產品中,RT引物的尾部包含一個銜接子,另一個通過NaOH水解去除RNA後通過單鏈DNA連接步驟添加(參見材料和方法)。單鏈DNA連接步驟是在高溫下用熱穩定的連接酶進行的,並且在銜接子的3&39;RNA條形碼同時從多個RNA中確定結構信息(圖1)。為了對此進行測試,我們將WT RNase P RNA的256種不同條形碼版本添加到與上述非條形碼WT RNase P RNA相同的庫中,並進行了SHAPE-Seq流程。條形碼由所有四個核苷酸序列組成,並置於SHAPE實驗常用的3&39;端摺疊成相同的結構,但在3&39;端產生的讀數的5'端的4核苷酸操縱序列,將RT片段的讀數首先分為1M7處理和未處理的庫。然後從每個讀數中修剪該手柄,以使讀數與所探測的RNA對齊。然後使用FASTX工具包[ http://hannonlab.cshl.edu/fastx_toolkit/ ] 修剪A_adapter_b和A_adapter_t的讀取(請參見SI Text)。使用Bowtie 0.12.8(15)將配對的讀數與所探測的RNA最佳比對,以確定RT終止計數。然後將這些RT停止計數用於計算基於ML的反應性。有關詳細信息,請參見SI文本。
通過反應性參數化的SHAPE-Seq隨機模型Θ,每個分子的預期修飾數c和自然聚合酶下降速率Γ用於通過最大似然估計來推斷感興趣的量(7)。我們假設每個RNA的修飾數是Poisson分布的,未知參數c待估計。使用此模型,可以通過以下公式計算實驗中獲得的一組片段計數X(+)通道和(-)通道Y的可能性:
其中X k,Y k是到達RNA中第k位的片段數。參考文獻中提供了模型推導和分析的詳細信息。 7。
在需要的地方,通過排除最高2%的活性物並將其標準化為下一個8%的平均值,將Θ轉化為SHAPE反應性(9)。在需要的地方,通過除以反應活性之和,將SHAPE-CE反應活性轉換為Θ,以使Θ之和等於1。在未對SHAPE-CE數據進行指數衰減校正的情況下(16)使用ML校正(7)計算θ 。
按照標準程序(9),在RNA結構程序中將SHAPE反應性轉化為偽自由能變化項。有關詳細信息,請參見SI文本。