miRWalk2.0在基因的完整序列內搜索可能的miRNA結合位點

2021-03-02 醫知圈

醫知圈

關注醫知圈 yizhiquan120,點擊右下角微服務裡面的【投稿、爆料】 報料身邊事。被醫知圈微信公眾號採用按點擊量獲得10-50元報料獎!


miRWalk2.0 是先前資料庫的改進版本(即,miRWalk [1])。miRWalk2.0是迄今為止唯一可免費獲取的綜合檔案庫,提供了預測和實驗驗證的miRNA靶物相互作用的最大可用集合,具有各種新穎獨特的功能(在以前的版本中缺失 - 即miRWalk [1]等資源 [2-17]),大大有助於miRNA研究界。目前,它合併了人,小鼠和大鼠的miRNA - 靶相互作用。然而,它提供了15種物種的miRNA-miRNA相互作用:人類,猩猩,黑猩猩,猴,小鼠,大鼠,豬,雞,狗,牛,青蛙,斑馬魚,負鼠,果蠅和蟲。

  miRWalk2.0不僅記錄了基因完整序列內的miRNA結合位點,而且將該信息與12個現有miRNA靶物預測程序的結合位點進行比較: DIANA-microTv4.0 [2], DIANA-microT -CDS [3], miRanda-rel2010 [4], mirBridge [5], miRDB4.0 [6], miRmap [7], miRNAMap [8], doRiNA即PicTar2 [9], PITA [10], RNA22v2 [ 11], RNAhybrid2.1 [12]和 Targetscan6.2 [13]為構建啟動子(4個預測數據集),cds(5個預測數據集),5'-(5個預測數據集)和3'-UTR(13個預測數據集)區域的結合位點的新型比較平臺。它還記錄了通過自動文本挖掘搜索和從現有資源獲得的數據(miRTarBase [14], PhenomiR2.0 [15],miR2Disease [16]和 HMDD [17]收集的實驗驗證的miRNA-靶交互信息, )提供這樣的信息。共有13,650份出版物記錄在驗證的miRNA-靶標相互作用上。它記錄了3,081個miRNA的實驗驗證的相互作用,並報告了與19395個基因,1,955個DOs,12個基因類別,4,371個GOBP,1,331個GOMF,715個GOCC,6,463個HPO,4,087個OMIM病症,546個途徑,28個蛋白質類別,450個基因相關的151,666,930個關係疾病,671個器官和87個細胞系。此外,它提供了已知參與miRNA加工的蛋白質的信息。

圖1:miRWalk2.0的開發旨在提供一個公共資源,為基因,線粒體基因組,其他miRNAs,途徑,基因,疾病和人類表型本體的完整序列提供推定和實驗驗證的miRNA相互作用和OMIM疾病,類,細胞系和器官。miRWalk2.0的結構可以大致分為四個部分:假定的miRNA靶標相互作用,有效的miRNA靶標相互作用,功能注釋和網絡界面。簡而言之,首先,下載所有基因組序列(啟動子,線粒體和miRNA),並且在本地執行五個預測算法以在下載的序列內產生推定的miRNA結合位點。在平行下,從現有資源中收集了8個預測數據,並與本地執行算法的結果相結合。此後,將這些miRNA結合位點分成6個不同的列表。其次,通過PubMed中的自動化文本挖掘調查獲取了實驗驗證的miRNA-靶標相互作用,並從四個資料庫獲取的數據載入這些信息。第三,獲得功能性注釋信息,如路徑,本體和疾病,以進一步剖析已經驗證的miRNA靶標相互作用。在最後一步中,Web界面被設計為承載存儲在MySQL資料庫(miRWalk2.0)中的整理信息。miRWalk2的網絡界面。0有兩個模塊(預測和驗證目標),可以被詢問獲取人類,小鼠和大鼠的miRNA靶標相互作用。此外,外部連結已經與結果頁面集成,允許用戶獲得關於查詢的基因,miRNA,途徑,本體和/或疾病的更多注釋和信息。

圖1. miRWalk2.0的路線圖

為什麼miRWalk2.0在基因的完整序列內搜索可能的miRNA結合位點?

十多年來,研究miRNA與其靶標相互作用的嘗試僅限於mRNA 3'-UTR區域。然而,幾個研究者最近提出了一種替代的基因調控模式,其中miRNA在其靶的啟動子,cds,5'-和/或3'-UTR區域內退火,從而調節其翻譯[18-21]。因此,在基因的完整序列(啟動子,5'-UTR,CDS和3'-UTR)中搜索可能的miRNA結合位點是至關重要的。

為了支持這種相互作用,miRWalk2.0通過從現有的miRNA靶物資源中收集13個預測數據集,提供了與基因所有區域的miRNA相互作用[1-13]。這13種不同的預測數據集是預處理的,統一的,並且處理的信息被進一步用於構建miRNA相互作用的新型比較平臺,使用戶能夠訪問啟動子,cds,5'-和/或3'-UTR區域上的新靶標。

什麼是miRWalk2.0?


miRWalk2.0的新奇如下:

它在基因(包括完整序列以及線粒體基因組)之間的可能的結合位點相互作用信息(包括完整的序列以及線粒體基因組)以及由miRWalk算法產生的miRNA可以通過與位點1至第7位的miRNA的七聚體(7nts)考慮到這些不同的起始位置,因為最近已經確定miRNA也通過核苷酸4至15的退火來調節其靶基因的表達[22]。


文獻記錄了13個miRNA靶標預測數據,以升級3'-UTR區域的miRNA結合位點的比較平臺。


通過局部執行5個miRNA靶標預測程序,為啟動子,5'-UTR和CDS區域實現了miRNA結合位點的新型比較平臺。


還結合了線粒體基因組上miRNA結合位點的比較平臺。


最近有人提出miRNA也可以與其他miRNA進行鹼基配對[23]。因此,miRWalk2.0不僅提供了miRNA-miRNA的相互作用,而且還結合了這一信息與4種預測算法的結合位點的比較:miRanda,PITA,RNAhybrid和Targetscan。


它提供miRNA與597 KEGG [ 45 ],456 Panther [25]和522 Wiki [26]途徑相關的基因之間的可能的相互作用。


它在18,394個基因本體術語上引發了miRNA結合位點的相互作用[27]。


它在基因[28]和蛋白質[25]類上提供miRNA結合位點。


關於2,035種疾病本體(DO)[29],6,727人類表型本體(HPO)[30]和4,980種OMIM疾病[31]上miRNA- 靶相互作用的信息記錄在miRWalk2.0中。


實施了一個全面的地圖集,以提供15種物種之間的人類同源基因,其類別,途徑和本體的比較概況。


人們還可以獲得在與途徑,本體和類別相關的基因中顯著富集其結合位點的miRNA。


為了促進大規模的濃縮分析,實施了一個名為「定製數據集」的新功能,通過該功能,用戶可以從13個不同的數據集中為自己的miRNA生成一個自定義的miRNA的定製列表,用於啟動子,CDS,5'-和/或3'-UTR區。


它為基因提供基因組位置搜索功能,以確定哪些miRNA共享相同或附近的位置 - 如以前的研究表明幾種哺乳動物miRNA基因通過利用它們的轉錄與其宿主基因和/或相鄰基因共表達機制,並促進對他們的協同和/或對抗的影響[32]。


所有結果頁面都提供了基因和miRNA的連結,允許用戶檢索數據,包括使用不同的算法組合,基本信息(基因,同義詞,標識符,定義,mRNA等)預測的miRNA結合位點,基因組位置(ContigID ,染色體,鏈,圖譜,基因開始和結束位置),表觀遺傳學[33],途徑,本體,蛋白質類。此外,外部連結(如UniGene,HGNC [34],OMIM,Ensembl [35],miRBase [36],Gene,PubMed,UCSC [37],AceView,DGV [38],CCDS,ClinVar,dbVar,PheGen1, GeneMania [39],EST,Probe,CDD,GEO [40],ProteomicDB [41],HPM [42]和UniProt [43]),以獲得關於表型,基因型,SNP,剪接,功能網絡,相鄰基因組成員,人體器官中基因和蛋白質表達的數據,其MS / MS譜和相關PubMed文章。


它還提供實驗驗證的miRNA靶標相互作用。

如何使用miRWalk2.0資料庫?

miRWalk2.0的網絡界面大致分為預測目標(PTM)驗證目標(VTM)模塊。這兩個模塊進一步分為不同的搜索頁面,允許用戶使用不同的標識符獲取miRNA相關信息。 

在PTM下實現的搜索方法:Gene-miRNA Targets搜索頁面

圖2:

Step1。 從給定的下拉菜單中選擇種類,資料庫和輸入標識符類型(圖2),並粘貼或上傳標識符列表。

第2步。 選擇至少一個複選框以獲取有關輸入標識符及其功能關聯的信息。

第三步。 選擇miRNA種子的起始位置(從1到6),您要在其上搜索可能的miRNA結合位點的輸入基因的區域(最多10kb,即啟動子區域允許為10,000),輸入最小種子長度的miRNA和/或P值,並且選擇至少兩種算法以獲得由啟動子,5'-UTR,CDS和3'-UTR區域內的13種不同預測數據集產生的miRNA結合位點的比較概述。

步驟4。 點擊「搜索」按鈕執行查詢。



圖2.基因 - miRNA搜索頁。



圖3:
在Gene-miRNA目標搜索中,列表結果頁面(圖3)顯示了基因的連結(圖4),允許用戶檢索包括基因信息(圖4),基因組位置(圖5)的數據,基因同義詞,RefseqIDs和同源信息(圖6),外部連結(圖7),基因和蛋白質類別的信息(圖8),功能關聯(圖9)和用不同組合算法預測的miRNA結合位點(圖10)。此外,可以下載關於15個物種的人類同源基因的信息,以進行同源基因的種間分析(圖6)。此外,還提供了外部連結(圖7),允許用戶獲得有關表型,基因型,SNP,剪接點,功能網絡,相鄰基因組成員,人體器官中基因和蛋白質表達的數據,其MS / MS譜和相關PubMed文章。這個頁面提供了一個一站式的地方來收集大量關於查詢基因的信息(圖3)。

圖3. Gene-miRNA結果頁。



圖4:
通過點擊GeneTab連結(圖3),用戶可以在查詢的基因上收集基本信息(如EntrezID,染色體,地圖,定義)(圖4),可以通過單擊「下載表「連結。該結果表的內容與外部資料庫:NCBI的基因和分類學超連結以獲得進一步的信息。

圖4.基因信息表。



圖5:
通過點擊「基因位置」連結(圖3),可以獲得關於查詢標識符的基因組位置(如ContigID,起始和終點位置,染色體,圖和鏈)和表觀基因組學的信息(圖5)並可以通過單擊「下載表」連結進行下載。該表與外部資料庫(NCBI上的Gene,Nucleotide和Epigenomics)有一些超連結,以獲取更多信息。

圖5.基因位置表。



圖6:
通過點擊「同義詞」,「參考表」和「同源表」連結(圖3),用戶可以收集有關同義詞(如基因,同義詞,EnsemblID,RefseqIDs[44],UCSCIDs,VegaIDs[45],UniGeneIDs,LocusTagIDS,RefseqPIDs,HGNCIDs,UniProtIds,OMIMID和UniSTS),mRNA(RefseqIDs,CDS起始和終止位置和mRNA的長度)和同源(15個不同物種中的人類同源基因的綜合圖譜)基因(圖6)。可以通過單擊「下載表」連結輕鬆下載這些表。這些表與NCBI的Gene和Nucleotide(Refseq)超連結,以獲得更多信息。

圖6.同義詞,mRNA和同源基因的信息。



圖7:
通過點擊「外部連結」(圖3),用戶可以通過幾個資料庫獲取他們感興趣的基因的信息。給定的連結(圖7)。這些外部資料庫是UniGene,HGNC,OMIM,Ensembl,UCSC,AceView,DGV,CCDS,基因型,ClinVar,dbVar,PheGen1,GeneMania,核苷酸,EST,探針,蛋白質,CDD,GEO,蛋白質組學資料庫,人類蛋白質組圖(HPM) ,UniProt,PubChem化合物,PMC和PubMed。有趣的是,所有這些外部連結可以通過點擊「下載表」連結下載。

圖7.外部資料庫連結。



圖8:
用戶可以通過點擊「基因」和「蛋白質」類連結(圖3)來檢索與其輸入標識符相關的基因和蛋白質類別的信息(圖8)。此外,可以查看和/或下載15種不同物種之間的蛋白質和基因類別的比較概述。「基因」和「類」領域也與外部資料庫(Gene和Panther)進行超連結,以獲得關於輸入基因及其蛋白質類別的進一步信息。

圖8.基因和蛋白質類別信息。



圖9:
可以通過點擊「KEGG」,「WIKI」,「Panther」,「GOBP」,「GOMF」和「GOCC」連結(圖3)獲取與查詢標識符相關的路徑和本體的信息(圖9) 。此外,可以查看和/或下載15種不同物種之間的途徑和本體的比較概況。「Gene」,「KEGG」,「Wiki」,「Panther」和「GO」領域也與外部資料庫(Gene,KEGG,WikiPathways,Panther和Gene本體)進行超連結,以獲得更多信息。

圖9.與途徑相關基因的信息(例如KEGG,Wiki和/或Panther)和本體(GO)。



圖10:通過點擊連結:啟動子,5'-UTR,CDS和3'-UTR
,可以獲得由miRWalk算法和12個其他預測數據集產生的完整基因序列中的miRNA結合位點(圖10)集成在結果頁面上(圖3)。比較平臺中的「綠色」和「紅色」彩色細胞分別指示給定的miRNA靶標相互作用是「預測」還是「未預測」。此外,可以隨時通過點擊「下載表」連結下載這些表。「Gene」,「RefseqID」和「miRNA」領域也與外部資料庫(分別為Gene,Nucleotide和miRBase)進行超連結,用於進一步注釋。

圖10. miRNA-靶相互作用。



圖11:
MicroRNA目標搜索頁面(圖11)的組織類似於「基於基因」的界面(圖2)。用戶可以通過選擇物種,資料庫和類型的標識符來進行「基於miRNA」的搜索; 通過提供miRNA的標識符; 挑選結果表 選擇啟動子,5'-UTR,p值和外部資料庫等檢索參數; 功能注釋; 並點擊「搜索」按鈕執行查詢(如圖11所示)。

圖11. miRNA信息檢索系統。



圖12:
「基於miRNA」的結果頁面(圖12)也以與「基於基因」結果頁面類似的方式組織(圖3)。基於miRNA的界面的結果頁面承載了信息的多層次視圖,即序列,種質,家族,具有相似種子的其他miRNA,序列比對,宿主基因和其他必需數據 - 假定目標和統計學富集途徑的列表,本體,基因和蛋白質類型(圖12至14)。集成在「基於miRNA」的結果頁面上的表與miRBase,Gene,KEGG,Wiki-Pathways,Panther,GO和分類資料庫超連結以收集進一步的注釋數據。

圖12. miRNA信息檢索系統的結果頁。



圖13:
用戶可以收集關於其感興趣的miRNA的信息,例如,哪些其他miRNA具有相似的序列,相似的種子,其家族的數據及其身份,家族成員和miRNA宿主基因信息的比對(圖13)。這些表與miRBase超連結,用於查詢miRNA的進一步注釋。

圖13.有關miRNA,類似序列,相似種子,家族,比對和miRNA宿主基因的信息。



圖14:
用戶可以彙編數據,如前miRNA,前miRNA對齊譜,前miRNA對齊譜的識別,13個不同預測數據集預測的可能目標以及不同途徑,本體和類中富集的miRNA(圖14)對其感興趣的miRNA。這些表與miRBase,Gene,Refseq,KEGG,WikiPathways,Panther和GO超連結以獲取更多信息。

圖14.有關在不同途徑中豐富的miRNA前體,比對和miRNA的信息。



圖15:
最近,miRNA已被證明與其他miRNA鹼基配對[23]。這些觀察結果可能不僅有助於了解監管網絡的複雜性,而且還可以開闢新途徑,以更好地了解這些監管者如何相互調整,以保持細胞的完整性。儘管如此,現有資源中缺少此信息。因此,在「miRNA-miRNA」搜索頁面的幫助下,將此信息生成併集成到miRWalk2.0中(圖15)。可以使用「miRNA-miRNA」搜索,通過miRWalk算法預測基因信息,如miRNA標識符,序列,比對,miRNA宿主基因和miRNA-miRNA結合位點。此外,還提供了一個綜合平臺,以提供有關查詢的miRNAs 的miRNA-miRNA結合位點的比較概述(圖15)。這些表與miRBase超連結以獲取更多信息。

圖15. miRNA:miRNA交互查詢和結果頁。



圖16:
使用「基因 - miRNA通路目標」或「途徑信息檢索系統」搜索,用戶可以在屬於一個或多個查詢途徑的所有基因的完整序列內收集推定的miRNA結合位點(最多10個為允許)。此外,還可以獲得與給定途徑相關的基因的列表並收集在這些途徑內富集其結合位點的miRNA(圖16)。這些表與miRBase,Gene,Refseq,KEGG和WikiPathways超連結以獲取更多信息。
其他檢索方法:「基因型靶點」,「染色體靶標」,「基因miRNA-OMIM靶點」,「疾病靶點」和「人類表型本體(HPO)靶點」的組織方式與「Gene-miRNA -Pathway目標「搜索結果頁。

圖16.路徑交互查詢和結果頁面。



圖17:
使用「線粒體靶」搜索頁面,可以通過從下拉菜單中選擇感興趣的物種,從而在完整的線粒體基因組內獲取推定的miRNA結合位點(圖17)。線粒體靶點的結果頁面與其他結果頁面類似。用戶可以獲得關於線粒體基因的信息,它們與途徑的關聯和推定的miRNA結合位點預測以及由5種不同預測數據集產生的比較視圖(圖17)。

圖17.線粒體相互作用查詢和結果頁。



圖18:
大規模實驗,如下一代測序或轉錄組學分析,產生大量數據(> 1,000個重要基因/ miRNA)。然而,沒有一種可用的miRNA資源,它允許用戶對所有重要候選者(一次)執行功能豐富分析,或提供功能來下載獨立工具的自定義數據集,例如GSEA[28]和DAVID[46 ]。為了促進大規模的濃縮分析,在miRWalk2.0中實現了一個名為「定製數據集」的新功能,用戶可以從13個不同的數據集中為自己的miRNA生成一個自定義的miRNA的定製列表,用於啟動子,CDS,5 '和/或3')。

圖18.定製的數據集查詢和結果頁面。



圖19:
以往的研究表明,幾種哺乳動物miRNA基因與宿主基因和/或鄰近基因,利用其轉錄機制共同表達,促進它們的協同及/或拮抗作用圖19。miRWalk2.0為基因提供基因組位置搜索功能,以確定哪些miRNA共享相同或附近的位置(圖19)。可以詢問從微陣列分析研究獲得的疾病特異性或重要基因的列表,以獲得可以用可能參與特定病症的遺傳調控的查詢基因表達的miRNA。此外,可以使用該信息來選擇位於附近或高度差異調控的基因內的miRNA(圖19),並且可以進行qPCR實驗來驗證潛在的miRNA,而不考慮miRNA微陣列分析研究。
此外,可以通過選擇基因組定位搜索頁面上給出的複選框來獲得位於人,小鼠和大鼠基因組的外顯子,內含子,5'-和/或3'-UTR區域內的所有miRNA的列表(圖19)。

圖19.基因組位置搜索和結果頁面。

為什麼miRWalk2.0在基因的所有區域內提供miRNA結合位點?

根據目前的理解,已經顯示出miRNA的新作用模式,通過它們可以通過結合啟動子以及編碼序列調節基因表達[18-21]。因此,在基因的完整序列(啟動子,5'-UTR,CDS和3'-UTR)中搜索可能的miRNA結合位點是至關重要的。

為了結合這些相互作用,我們通過從現有的miRNA靶物資源中收集13個預測數據集,從而可以產生與基因所有區域的miRNA相互作用[1-13]。這些相互作用記錄在miRWalk2.0中,使用戶能夠訪問啟動子,cds,5'-和/或3'-UTR區域上的新靶標。

miRWalk2.0是否通過基因整合轉錄編碼?

是的,miRWalk2.0整合了基因編碼的所有轉錄本 - 如以前已經顯示的那樣,由於可選剪接過程,基因可以編碼具有不同長度的不同轉錄物 - 例如,已知TP63基因用變體編碼六種不同的轉錄物長度在5'-UTR,CDS和3'-UTR區。

「其他資料庫」是什麼意思?

在使用「miRWalk算法」掃描人,小鼠和大鼠的所有基因/ miRNA(包括線粒體基因組)的可能miRNA結合位點的完整序列後,收集12個資料庫產生的預測數據集,以構建新的比較平臺來比較結果。實際上,考慮由多種算法產生的miRNA - 靶相互作用的結合和/或交集已成為常見的做法[50-56]。因此,miRWalk2.0為啟動子,5'-UTR,CDS,3'-UTR,線粒體基因組和miRNA-miRNA對提供了miRNA-靶相互作用信息的新型平臺。
使用邏輯運算符(OR或AND)選擇至少兩個算法以獲得比較視圖是很重要的。

什麼是最小種子長度?

miRNA可以與其靶點(即啟動子,5'-UTR,CDS,3'-UTR和/或miRNA)結合的miRNA種子序列(從5'末端)的最小核苷酸數目(nt)。
不可能搜索小於7nt的miRNA的可能結合位點。因此,用戶應至少在給定的文本框區域輸入7。

什麼是p值?

通過使用泊松分布計算給定序列(基因,miRNA和/或線粒體基因組序列)中子序列(來自miRNA序列的5'末端)的隨機匹配的概率分布。低概率意味著重大打擊的地方。關於泊松分布的更多信息已經在[1-13]中描述。
默認p值設置為0.05。

什麼是miRWalk2.0的現狀?

目前,miRWalk2.0的PTM在13個不同的預測數據集中產生了超過11,740個miRNA和基因,miRNA,人類,小鼠和大鼠的線粒體基因組之間的推定交互信息。此外,它提供了與生物學途徑,基因本體,疾病,OMIM病症,人類表型本體,基因和蛋白質類別相關的基因上預測的miRNA結合位點。

在VTM中,有超過13,650份出版物記錄在miRNA上。該模塊記錄了3,081個miRNA的實驗驗證相互作用,並報告了與19395個基因,1,955個DOs,12個基因類別,4,371個GOBP,1,331個GOMF,715個GOCC,6,463個HPO,4,087個OMIM病症,546個途徑,28個蛋白質類型相關聯的151,666,930個關係, 450種疾病,671種器官和87種細胞系。此外,它提供了已知參與miRNA加工的蛋白質的信息。該模塊最後更新於2014年9月29日。

分類人的老鼠鼠總一般信息基因有20 022名22,23222,817308700的mRNA65,5202891628928512412的miRNA2,578190872811748身份標識9941356845533642685077757功能注釋信息KEGG途徑2041971962,701豹路1601491472,014WikiPathways2261461501519基因本體(GO)75065,441544749035疾病本體(DO)2,035NANA2,035人類表型本體(HPO)6727NANA6727OMIM病症4980NANANA基因類121212180蛋白質類292729430推定的miRNA靶標相互作用信息啟動器(5種算法)146354554123529954380379353079224435'-UTR(5種算法)7140937918621336366359093694305CDS(5種算法)14363411925667955165946051858966793'-UTR127216865349700089253524171440397miRNA-miRNA(5種算法)211636515592055796389747305線粒體(5種算法)3037220745780558922驗證的miRNA靶標相互作用信息類別總計(N)互動用品基因(14種)miRNA(14種)基因1939535110848866193953081的miRNA308135110849282193953081疾病4502093973,6503,6562347KEGG途徑2004715062478362002,454PantherDB路徑15116987493,77730182351WikiPathways1952939796498146092,296GOBP4,371261398796108165812597GOMF1331105333236068164142598GOCC715113959326,128176826,128基因類1235103966,144193772,605蛋白質類28330675953899,2422515權力下放19551710173654916,0852,276HPOS646364456044383223642,080OMIM病症40872133681411125432124機關6711828638441NA2659細胞系87150921156NA1422用品13650

什麼是未來計劃的miRWalk2.0?

將集成更多注釋和附加物種,以進一步擴大這一資源。

如果您在使用miRWalk2.0時遇到問題,我們希望您通知我們,或者您有建議改進用戶界面以及將新功能納入此資源。

要獲得有關miRWalk2.0的更多信息,請聯繫: miRWalkTeam at mirwalkteam@medma.uni-heidelberg.de

miRWalk2.0如何存儲13個預測數據集產生的所有推定目標?

從已建立的miRNA靶標預測程序(第三方算法)獲得的所有可能的預測目標(無閾值或濾波器)都存儲在miRWalk資料庫中。目前,第三方算法的所有推定目標(與miRWalk預測數據匹配和無法匹配)的目標。

什麼是miRWalk算法?

2011年,我們開發了miRWalk算法[1],以識別miRNA和基因序列之間的所有可能的相互作用。簡而言之,基於沃森 - 克裡克補充,它開始在完整的基因序列和線粒體基因組上開始使用7nt(七聚體)的起始miRNA種子,並識別可能的miRNA結合位點,直到所有已知基因的完整序列可能匹配,返回所有鑑定的結合,然後將這些miRNA結合位點分配到蛋白質編碼基因和線粒體基因的四個區域(啟動子,5'-UTR,CDS和3'-UTR)。另外,通過使用泊松分布計算分析序列中子序列(來自miRNA序列的5'末端)的隨機匹配的概率分布[12]。在下一步中,miRWalk將其確定的miRNA結合位點與8個已建立的miRNA靶標預測程序(即DIANA-microT,miRanda,miRDB,PicTar,PITA,RNA22,RNAhybrid和TargetScan / TargetScanS)的結果進行比較。最後,它將由miRWalk算法產生的所有預測的miRNA結合位點和8個已建立的程序合併到關係資料庫(miRWalk)中。此後,它在PubMed的標題/摘要中進行自動文本挖掘搜索,以檢索關於人,小鼠和大鼠miRNA的實驗驗證信息及其與基因,途徑,疾病,器官,細胞系,OMIM病症和已知涉及miRNA加工的蛋白質。該信息被編制並存儲為經實驗驗證的miRNA靶標相互作用進入miRWalk資料庫。
通過在bwGRID群集海德堡(High Performance Cluster)的伺服器上執行自動化Perl和BioPerl腳本來生成關於預測和驗證的miRNA靶標相互作用的信息。請閱讀Dweep等 [1]關於miRWalk算法的更多信息。 

用於下載的自定義數據集文件列表

所有定製的數據集可以通過在miRWalk2.0的PTM下實現的整體視圖搜索頁面以兩種最流行的即用文件格式(Rdata和GMT)進行下載。

如何減少我的miRNA感興趣的推定靶基因的數量?

已經通過考慮不同的搜索規則(例如鹼基配對,熱力學穩定性,保守性和協同性以及miRNA結合位點的多重性)來開發許多計算方法來鑑定可能的miRNA-靶相互作用[1-4]。這些算法被證明是有用的; 然而,使用這些算法進行的比較研究表明,沒有一個程序始終優於所有其他程序[5-6]。因此,為了克服這個問題,研究人員開始關注不同程序組合產生的預測信息[7-9]。此外,這種方法已經變得非常受歡迎,已被應用於數百種出版物[7-9]。因此,為了進一步探討算法的不同組合的考慮是否是嚴格的濾波器,我們估計了人(hsa),小鼠(mmu)和大鼠(rno)的3-UTR區域內靶標的中值與不同的算法數(例如,至少2到10)。通過考慮僅使用至少2種算法預測的相互作用,針對hsa,mmu和大鼠的靶點的中位數分別為7967,7793.5和3857。有趣的是,隨著算法數量的增加,觀察到中值的快速下降(圖20a)。例如,通過考慮至少4種算法,中值降低到3865(hsa),2724(mmu)和1146(rno)。當使用至少6種算法時,hsa,mmu和rat的中值分別進一步降低到1000,1504和66。 

圖20:
當算法數量增加時,(a)3-UTR,(b)啟動子,(c)5-UTR和(d)CDS區域內的中值(靶)值的減少。

圖20.減少中位數(目標)值。

類似地,該過濾標準也應用於其他區域:啟動子(2kb)(圖20b),5-UTR (圖20c)和CDS (圖20d)以找出中值的變化。發現中值隨著對於3-UTR區域觀察到的算法數量的增加而以類似的方式減少。例如,具有至少2種算法的人的啟動子,5-UTR和CDS的中值為5505,2217和10279,然而,在將算法數增加至至少3之後,值迅速降低至3041,608和4720.因此,這些觀察表明,不同的算法可以作為嚴格的過濾器來減少一個或多個miRNA的靶基因的數量。

此外,幾項研究已經證明相當多的miRNA共同靶向3-UTR和CDS或5-UTR區[10-13]。例如,在Lee等人中,與僅含有3-UTR位點的那些相比,在5-UTR和3-UTR上含有miRNA結合位點的報導構建體在很大程度上下降[13]。在Fang等人中,作者重新分析了以前發表的研究,並觀察到,與僅在3-UTR中具有位點的基因相比,在兩個區域(CDS和3-UTR)中攜帶miRNA結合位點的基因顯示出明顯更強的調節[10 ]。這些觀察在另一項研究中進一步得到證實[12],作者還發現一些miRNA(特別是與細胞周期相關的miRNA)似乎優先退火到CDS區域,他們發現它們在快速抑制翻譯中是有效的[12]

因此,這些研究也可以用作額外的過濾器,以進一步減少每個miRNA的靶基因的數量。此外,步驟需要減少目標基因的數量(圖22)。簡言之,首先,通過應用不同的算法方法(如圖1-4所述),可以在啟動子,5,CDS和/或3-UTR區域內獲得miRNA結合位點結果。第二步是根據感興趣的區域來組合這些位點以收集共靶點(僅在5-UTR + 3-UTR和/或CDS + 3-UTR內)。在最後一步,可以在其感興趣的基因內的共同目標網站進行過度表達分析。這種濃縮分析將進一步將miRNA的數量減少到幾個潛在的候選者。

為了進一步補充由miRWalk2.0的比較平臺託管的信息,通過CLIP數據集收集的約1300萬次交互是通過顯示驗證信息的附加表(多少預測相互作用已經在miRTarBase和/或關於推定的基因 - miRNA相互作用的CLIP數據集(圖21)。此外,這些互動可以以兩種格式(Rdata和GMT文件)進行下載,以實現獨立的大規模過度表示分析。此外,有關這些數據集的整體視圖的信息可以通過在「預測目標」模塊下實現的Holistic.html頁面下載。


參考文獻:
1. Dweep,H.,Sticht,C.&Gretz,N.In-Silico Algorithms for the Screening of possible microRNA Binding Sites and Their Interactions。Curr Genomics 14,127-36(2013)。
2. Min,H.&Yoon,S. Got target?微RNA靶基因預測及其擴展的計算方法。Exp Mol Med 42,233-44(2010)。
Peterson,SM et al。microRNA目標預測工具的常見特徵。Front Genet 5,23(2014)。
4. Yue,D.,Liu,H.&Huang,Y. Survey of Computational Algorithms for MicroRNA Target Prediction。Curr Genomics 10,478-92(2009)。
5. Megraw,M.,Sethupathy,P.,Corda,B.&Hatzigeorgiou,AG miRGen:a database for the study of animal microRNA genome organization and function。Nucleic Acids Res 35,D149-55(2007)。
6. Rajewsky,N. microRNA目標預測動物。Nat Genet 38 Suppl,S8-13(2006)。
Bavamian,S.et al。miR-34a的調節將神經元發育與雙相障礙的遺傳風險因素聯繫起來。Mol精神病學(2015)。
8.Dweep,H.,Sticht,C.,Kharkar,A.,Pandey,P.&Gretz,N. Parallel analysis of mRNA and microRNA microarray profiles to exploration functional regulatory patterns in polycystic kidney disease:using PKD / Mhm rat model 。PLoS One 8,e53780(2013)。
9. Felekkis,K.et al。在CNV區編碼的基因中的microRNA靶位點數量增加。進化基因組相互作用的證據。Mol Biol Evol 28,2421-4(2011)。
10.Fang,Z.&Rajewsky,N。miRNA靶位點在編碼序列和3'UTR中的影響。PLoS One 6,e18067(2011)。
11. Forman,JJ&Coller,HA代碼中的代碼:microRNAs目標編碼區域。Cell Cycle 9,1533-41(2010)。
12. Hausser,J.,Syed,AP,Bilen,B.&Zavolan,M.Cisco of CDS-located miRNA target sites表明它們可以有效地抑制翻譯。Genome Res 23,604-15(2013)。
Lee,I。等 新的含有同時5'-UTR和3'-UTR相互作用位點的微小RNA靶標。Genome Res 19,1175-83(2009)。

圖21:
維恩圖(a至c)描述了通過人類的四個不同的CLIP數據集獲得的5-UTR,CDS和3-UTR內的RBP(RNA結合蛋白)相互作用; (d)描述了人類CLASH數據集中觀察到的miRNA-靶相互作用的比較觀點; 和(e)使用三個CLIP數據集顯示小鼠基因的5-UTR,CDS和3-UTR內的RBP相互作用。 

圖21. CLIP數據集概述。

圖22:
為了減少目標miRNA上的推定靶基因的數量,可以遵循以下步驟(圖22)。

步驟1.通過microRNA信息檢索系統收集具有目的基因(通過考慮至少2種算法)的信息,其具有mRNA 5-,CDS和3'UTR區域內的感興趣的miRNA的結合位點(如圖11-14所述) 或Holistic.html在miRWalk2.0的PTM下實施。步驟2.編譯從步驟1獲得的信息,並創建不同組合(即5-UTR + CDS,5 + 3-UTR和CDS + 3-UTR)中具有目標miRNA結合位點的目標基因的單獨列表(文件)。步驟3。



將step2產生的所有文件標記為獨立的濃縮分析和/或通過實驗驗證的數據(經過驗證的目標基因和/或CLIP數據集)進行映射。如需進一步的幫助,請通過mirwalkteam@medma.uni-heidelberg.demiRWalkTeam聯繫。 

圖22.減少感興趣的miRNA上推定的靶基因數量的步驟。


類似地,可以考慮上述三個步驟來減少重要基因列表上的miRNA的數量。

如果您欣賞本文,歡迎長按下列二維碼並「識別二維碼」打賞,金額不限。

這裡是醫知圈的微信公號,歡迎您長按下列二維碼並「識別二維碼」關注。我們也提供數據分析服務,小編微信:1478115560

                                     

相關焦點

  • 經典的miRNA靶標預測資料庫|miRNA|資料庫|RBP|靶標|結合|-健康界
    比如我們搜索人體內該miRNA的結合靶標時,進行如下設置即可。其中mammal代表哺乳動物,CLIP Data可以調整支持CLIP-seq實驗的次數以控制預測的嚴格性,Program Number選擇實驗數目,Predicted Program可以選擇使用哪些預測軟體來進行預測:
  • |mRNA|UTR|異構體|蛋白質|元件|序列|基因|-健康界
    但是相較於miRNA結合位點的研究,很多RBP的結合位點(motif)目前還不是很情況。即使有一些RBP的motif已經很明確了,但是這些motif經常間隔很遠的距離,這樣就不足以形成功能性的motifs。另外呢,很多RBPs具有相同的motif。這樣我們就不是很清楚他們之間到底是競爭還是合作的關係了。
  • 希臘確認新冠病毒完整基因序列 實時監測病毒變異情況
    中新網1月11日電據希臘《中希時報》10日報導,雅典科學院生物研究所正在實施一項檢測新冠病毒突變的計劃,其於近日宣布,已經在希臘第一波和第二波疫情的1150名患者中,確定了病毒的完整基因序列。  報導稱,研究人員通過對疫情期間病毒基因組演化的分析,結合國內開展的流行病學研究,為希臘各地區疾病的演變,以及對疾病患者個體和人群臨床特徵的解讀提供了重要信息。  此外,關於最初在英國發現的變異新冠病毒,雅典科學院生物研究所科學委員會主席迪米特裡斯·薩諾斯教授表示,此前在英國南部發現的變異毒株已傳播至希臘,系4名來自英國的旅客傳入。
  • 研究揭示小鼠祖B細胞抗體重鏈基因位點收縮和V(D)J重組的調控機制
    研究揭示小鼠祖B細胞抗體重鏈基因位點收縮和V(D)J重組的調控機制 作者:小柯機器人 發布時間:2021/1/15 15:39:01 哈佛大學醫學院/波士頓兒童醫院的 Frederick W.
  • 基因編輯熱點研究方向全面盤點,一文帶你了解基因魔剪的前世今生
    ZFN的DNA結合域通常含有3個獨立的ZF重複結構,每個ZF結構能夠識別3個鹼基,因而一個鋅指DNA結合域可以識別9bp特異性序列,ZFN二聚體(含6個鋅指)可以識別18bp長度的特異性序列。ZFN誘導的雙鏈斷裂易受細胞DNA修復過程的影響,從而導致靶向誘變和靶向基因的替換均以非常高的頻率進行。目前最常用的ZF結構為Cys2His2鋅指。
  • 基因編輯嬰兒有沒有可能成為「超人」或「怪胎」?
    首先,很多人都看不懂這條新聞中被頻繁提到的基因編輯技術CRISPR-cas9以及脫靶到底是什麼意思。我前段時間剛好看過王立銘教授的科普書《上帝的手術刀》,對這個還有點印象,這次又查了一些相關資料,詢問了專家團中的一些專家。
  • c-Myc作為腫瘤基因,神奇在哪裡?
    Mcm複合體的最終激活需要蛋白激酶CDK的介入(激酶一種可以催化蛋白質相應胺基酸位點磷酸化的酶)。CDK(Cyclin依賴的激酶,cyclin dependent kinase)只有結合cyclin蛋白後才能發揮作用,這就是所謂的細胞周期檢查點調控靶標。由各種上遊信號通路介導的CDK或cyclin失活即可以阻滯細胞周期。
  • 基因沉默專題——shRNA原理及設計
    由於RNAi具有高度的序列專一性和有效的幹擾,可以特異地將特定的基因沉默,從而獲得基因功能喪失或基因表達量的降低,因此可以作為功能基因組學的一種強有力的研究工具。RNAi技術可廣泛應用到包括功能學,藥物靶點篩選,細胞信號傳導通路分析,疾病治療等等。
  • 從微衛星不穩定- 深度了解錯配修復基因(MMR)
    錯配修復(MMR)是重要的DNA修復機制,是識別及修復在DNA複製或重組過程中,可能產生的鹼基的錯誤插入、缺失和錯配,以及修復某些形式的DNA損傷的系統。在人體內,7個MMR蛋白(MLH1, MLH3,MSH2, MSH3, MSH6, PMS1和PMS2)按照工作順序進行DNA的修復;除此之外,MMR輔路上還有Exo-1依賴性蛋白和Exo-1非依賴性蛋白。
  • 生物選修3-「基因工程」提問內容
    原核生物,主要存在於原核生物中限制酶的作用部位----磷酸二酯鍵作用特點或者特異性----識別特定序列並在特定位點切割;不同的限制酶具有不同識別位點12、為什麼原核細胞中的限制酶不剪切細菌本身的DNA?
  • 基因技術:承載生命的密碼,未來醫學的鑰匙
    基因研究,必將打開潘多拉的魔盒,可能是毀滅性的,但也可能是救贖的希望。遺傳學上的探索1860年奧地利學者孟德爾(Gregor J. Mendel)通過黃綠色豌豆雜交實驗,提出遺傳因子的概念,總結出基因的分離和組合定律,開創了現代遺傳學。1926年美國遺傳學家摩爾根(Thomas H.
  • 【Cloud Edge第15期】大數據基因測序的成本逼近1000美元:個性化...
    他們把大數據和生物科學進行了結合,通過Bina的技術對基因的數據分析,研究型大學、製藥公司和臨床醫生就能夠利用這些數據發現基因中罕見的病變信息——正是這些造成了癌症、新生兒疾病、鐮狀細胞性貧血等等。
  • 一個基因突變改變人類性別
    因此,研究人員搜索了Alice基因組中其他和這一疾病相關的突變,最終找到了一個可疑的基因。2018年,聖保羅大學的研究人員將這一研究結果發表於《臨床遺傳學》(Clinical Genetics),證實Alice的患病原因罕見地與一個存在於常染色體上的癌症相關基因——WT1基因的突變有關。WT1蛋白序列。
  • 天津、河北與北京新冠病例均為同一病毒序列,同屬歐洲家系!
    此前,北京市疾病預防控制中心、中國醫學科學院病原生物學研究所、中國科學院北京基因組研究所、清華大學、北京大學的研究人員在《國家科學評論》(National Science Review)上發表題為「北京新冠肺炎疫情再現可能源於冷鏈食品汙染」的研究論文。
  • 顱內動脈瘤的全基因組關聯研究終於來了,這些基因風險位點值得注意...
    隨著對家族性IA研究的深入,科學家發現多個家族性IA相關基因突變位點。來自日本學者的研究顯示,日本IA家系患者CDKN2BAS基因上的rsl333040位點出現了T等位基因,提示CDKN2BAS基因的第7和第15內含子攜帶的等位基因rsl333040-T可能為IA的相關致病基因,該結果也被其他的學者所證實。
  • 電影中的複製人可能成為現實,新技術可以幫科學家一天創造新基因
    一種模仿人體複製自己的 DNA的新技術, 在一天內創造新的基因可能很快就可能實現。這項技術可以解決一些,讓研究人員迅速重寫微生物基因障礙, 獲取可能有一天, 這可以使他們能夠合成新的藥物和燃料的蒼蠅。"這是未來," 哈佛大學的遺傳學家喬治教授說, 他開創了許多技術, 用於合成生物學的 DNA 讀寫。
  • 基因療法加點酶 肌萎縮咱不怕!
    這種稱為GALGT2的療法,與現有的基因療法不同,它針對蛋白聚糖,這是與肌萎縮蛋白dystrophin結合的膜蛋白。
  • 諾貝爾化學獎頒給「基因編輯」,華裔科學家張鋒未能一同加冕
    基因組編輯是基因工程中的一種方法,酶是這一過程中的「分子剪刀」,可以剪切DNA。這種酶名叫核酸酶(nuclease),能在特定的位點切斷雙鏈DNA。  DNA斷裂後,細胞會對斷裂位點進行修復。有時,細胞中一些人為導入的基因片段,會在修復的過程中插入這些位點。
  • 數學家基因|探索稀有遺傳資源
    「我們研究的新方法是要看看自閉症的基因和數學的基因是完全獨立的,還是有重合的地方,」發育精神病理學教授、劍橋大學的ARC主任Simon Baron-Cohen說。數學家是自閉症患者,自閉症患者是數學天才,你們可能很熟悉這個概念。
  • 兩位女科學家因基因編輯技術獲諾獎 這名華裔也曾被認為是熱門人選
    但在她們之前和之後,有多位科學家的貢獻,所以一直不清楚她們之外,還有誰會與她們共享。由於細胞內的DNA經常受到損傷,特別是雙鏈發生斷裂時,如果不能很好地修復會對細胞造成致命的影響。細胞內有一套機制,能讓受傷的DNA以與其同源的序列(一般來源於其等位基因,也就是從雙親中的另一方繼承的相同的基因)為模板來自我修復,這個過程即稱為同源重組。1990年代後期,賈辛的實驗室發現兩個基因BRAC1和BRAC2的突變和乳腺癌以及卵巢癌有很強的相關性。