TargetScan 基於序列互補原則,找到比對到靶 3'UTR 的保守性 8 mer、7 mer 或 6 mer 位點(seed match 序列),進一步根據熱力學穩定性篩選得到 miRNA 的靶。seed 序列配對主要考慮三種類型:7 mer-1a(miRNA 的第 2-7nt 與靶基因互補配對, 而且 UTR 上與 miRNA 1nt 互補配對的位置是 A);7 mer-m8 (miRNA 2-8nt 與靶基因完全配對);8 mer (miRNA 2-8nt 與靶基因完 全配對,而且 UTR 上與miRNA 1nt 互補配對的位置是 A)。
註:圖片來源於 https://www.jianshu.com/p/4ec17175256f
由於很多通過保守的 seed match 序列找到的 target 不一定具有功能,而且有很多與靶基因配對的不具備保守性的 seed match 區域也找到了一些有功能的 miRNA 靶位點。targetscan 考慮到這點提出了seed match周圍序列也會影響 miRNA 的靶功能,引入了 context score。主要包括如下幾部分:
Site Type 8 mer > 7 mer-m8 > 7 mer-1a;
3' pairing contribution:除了與 miRNA seed 區域配對,與 miRNA12-16nt 的配對也有可能對 miRNA target 的功能產生影響;
local AU contribution:AU rich 的區域更有可能有功能;
position contribution:miRNA 靶位點至少離終止密碼子15nt,且功能性 site 更可能位於 UTR 兩端而不是中間,中間往往存在複雜二級結構不利於靶位點結合。
考慮這些因素後,對於不具備保守性的 seed match 區域也可以計算相應的 context score。將保守和不保守區域的 context score 進行排序即得到 context score percentile。一般考慮 context score percentile > 90 為預測的可能具有功能的 miRNA 的靶。
step 1、首先需要準備兩個文件:miRNA 的 fa 序列以及 target 的 fa 序列文件。
step 2、將上述文件轉換為 targetscan 預測需要的格式。
其中 miRNA 的序列文件轉換為如下格式(任意一種均可):
格式 1:包含四列,分別是:miRNA 家族、物種 ID、miRBase 的 ID、成熟的 miRNA 的序列。
格式 2:包含三列,分別是:miRBase 的 ID、成熟的 miRNA 的第一到第七位的序列、物種 ID。
百邁客的結果文件命名為:targetscan.context.txt。其中標題各列的含義如下:
Gene ID:基於 ID
Species ID:物種 ID
Mirbase ID:miRbase 中 miRNA 的 ID
Site Type:配對類型(8mer、7 mer-m8、7 mer-1a)
UTR start:UTR 起始位置
UTR end:UTR 終止位置(起始和終止的長度大概是 6nt)
3' pairing contribution : 3' 端配對的貢獻值
local AU contribution : AU rich 區域的貢獻值
position contribution : 結合位點的貢獻值
context score :考慮其他因素對靶基因預測的影響後計算得到的得分(累積加權後的得分)
context score percentile:排序後的得分
UTR region :UTR 區域的序列
UTR-miRNA pairing :miRNA 與 UTR 互補配對的區域
mature miRNA sequence :成熟的 miRNA 序列
miRNA family:miRNA 家族
參考文獻:
Conserved Seed Pairing, Often Flanked by Adenosines, Indicates that Thousands of Human Genes are MicroRNA Targets