對某種特定疾病進行遺傳學篩查時,總會得到一些新突變。最近在對這些突變進行功能學上的討論,用在論文裡面,做一些筆記給大家分享,大佬有更好的辦法歡迎留言。
致病突變熱點分析如果希望比較完整的收集pubmed中報導過的致病突變,最近試了一個很好用的工具mastermind,它把pubmed中文章正文和附錄表格中涉及到突變的欄位全部抓取出來形成一個表格,可以把它貼出來。註冊後有三天的免費試用期。無奈我的試用期用完了,只好用clinvar資料庫的位點,雖然這個位點是不全的,我們是要看致病突變喜歡聚集在哪裡,全不全也沒關係。
首先,下載clinvar資料庫中pathogenic、likely pathogenic的錯義突變位點。至於剪切、無義、移碼突變這些功能喪失突變(loss of function,LOF),出現在結構域任何位置都會導致後面蛋白截短,所以沒有必要討論。
把左邊的pathogenic、likely pathogenic和missense點上,可以看到有66條結果,右邊Download下載,得到一個txt文件。
在linux或者Mac電腦的終端下面,用腳本處理得到的clinvar_result.txt文件,把胺基酸變化的信息拿出來:
sed '1d' clinvar_result.txt | cut -f 1 | sed 's/.*(p.\(.*\))/\1/' | tr "\n" " " >out.txt之所以輸出一個out.txt,是為了可以檢查一下,作為棒棒糖圖 lollipops 的輸入文件。偶爾會混進來一些不是胺基酸信息的東西,手動刪掉就可以了。棒棒糖圖可以從https://github.com/joiningdata/lollipops下載。
用clinvar的致病位點信息,加上自己發現的新突變,跑一個lollipops,這步需要網絡。自己的突變加上一個顏色,如果有多個突變就一直往後面貼。
./lollipops -legend FGFR1 把out.txt裡的東西貼到這裡 自己的新突變#7f3333可以得到一個svg的文件,可以用Adobe Illustrator編輯。如果嫌麻煩,直接末尾加參數-o=filename.png -dpi=300,導出png格式。
兩個棕色的位點是我自己的,其它紅色是資料庫裡的位點。說明兩個新突變附近是已經有致病突變支持的。
可惜clinvar不能抓出來位點出現頻率的信息,有哪位會搞請給我留言。
位點保守性很多文章裡會放一個位點在多個哺乳動物中同源基因的序列比對結果,如果這個位點所在區域非常保守,它通常預示著有比較重要的功能。這個序列可以從UCSC網站中拿到。比如說我需要FGFR1基因的 V793I 這個位點的情況,需要把基因組坐標輸入到網站搜索欄,注意注釋版本,我的是hg19。網址如下:https://www.genome.ucsc.edu/cgi-bin/hgTracks?db=hg19
搜索欄輸入:chr8:38271232
會直接跳到你要的這個鹼基。在右上角的zoom out中縮小100倍範圍,直接就可以得到結果。可以看到這個位點在小鼠、狗、雞、大象什麼的都是保守的。
然而這個圖寫文章肯定是用不了的。接下來我們要拿到這一段fasta序列。
點擊Table Browser工具。
使用Table Browser工具,照下面參數填好。可以position填FGFR1基因的坐標區域,也可以在genome選項中,點擊identifiers,在裡面輸入FGFR1,是一樣的。output file取一個下載的文件名。
下一步是選擇需要哪些物種,在multiz46way這個資料庫裡隨便選一些就好了。
然後點擊get output,fasta文件就下載好了,使用MEGA打開。MEGA下載地址:https://www.megasoftware.net/
用MEGA打開的比對序列是不是好看很多了呢。
找到想找的位點很容易,在左下角輸入V793I裡面對應的數字793,就找到了。
或者看到上面UCSC瀏覽器裡紅框圈出來的序列了吧,搜索DSVFS這五個字母去查找。至於為什麼不是按照圖片裡的順序SFVSD去找呢?因為FGFR1讀碼順序和參考基因組是反向互補的,UCSC上面會有密密麻麻的朝左箭頭來提示。
好了今天就搞這麼多。