手把手教你通過重測序尋找外源基因插入位點

2020-11-29 百邁客雲

在做轉基因動植物時,相信許多實驗室的小夥伴們都遇到過"我轉成功了嗎?"我轉到哪兒去了?"這樣的困惑,那麼,你是否還在傳統的酶切,PCR擴增,構建載體,然後一代測序等分子實驗技術來做驗證

你是否知道,利用重測序的方式檢測外源基因的插入與否以及確定外源基因插入位點則是一個非常不錯的選擇呢。來來來,聽小編給你娓娓道來。。。

01外源基因插入位點檢測原理

將測序reads比對到參考基因組和外源序列,根據比對結果文件找出下列兩類 reads:

第一類:一端reads比對上參考基因組序列,另一端reads比對上外源序列;

第二類:兩端中任何一端reads一部分序列比對上參考基因組序列,另一部分比對上外源序列。

檢測原理示意圖如下:

圖1 橘色部分為外源序列,綠色部分為參考基因組。需要從比對結果中找出上面的兩類reads,其中第二類reads可以準確定位插入位點。

02外源序列插入位點的檢測步驟

1)對下機原始數據進行過濾得到clean reads;

2)將外源序列與參考基因組序列進行合併得到ref.genome.fa文件;

3)Clean reads與上述fa文件進行比對得到sam文件;

4)將外源序列與參考基因組進行比對,排除同源性的影響;

5)評估外源序列的測序深度和覆蓋度;

6)從bam文件中篩選出比對到外源序列的reads,進行組裝;

7)組裝序列與外源序列進行比對,評估組裝結果;

8)組裝序列與參考基因組進行比對,確認插入位點。

03

具體步驟介紹

1)下機原始數據會包含adapter,一些低質量的reads以及adapter汙染的reads,一般使用fastqc進行質控,利用cutadapt(http://cutadapt.readthedocs.io/en/stable/)進行過濾,也可以用trimmomatic(http://www.usadellab.org/cms/?page=trimmomatic)進行過濾,如有小夥伴拿到的是原始數據可以使用這些軟體進行過濾,一般使用默認參數即可,trimmomatic命令

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

2)在測序界來說,幾乎所有後續分析都要基於序列比對,尋找外源序列插入位點也是如此,利用bwa(http://bio-bwa.sourceforge.net/bwa.shtml)和samtools(http://www.htslib.org/doc/samtools.html)獲得bam文件

bwa index –a is ref.genome.fa#is 是bwa默認的算法,當database大於2GB時不可用bwa index –a bwtsw ref.genome.fa#當database大於2GB可選擇此算法bwa mem –t 4 ref.genome.fa example.1.fq example2.fq > example.sam # 生成sam文件,-t 表示線程數samtools view -bS example.sam > example.bam #sam格式轉bam格式

3)對於第4步主要是評估外源序列與基因組之間的同源性(假如同源性很高,怎麼判斷測序reads是來自外源序列還是參考基因組?),blast(https://www.ncbi.nlm.nih.gov/books/NBK52640/)軟體即可

formatdb -i ref.genome.fa -p F #利用參考基因組構建資料庫,-p:建庫類型

blastall -p blstn -i -d ref.genome.fa -m 8 -o example.out #-m表示輸出格式

一般選擇m8表格形式,還有其它格式如m7的xml,簡單看一下m8輸出格式:

4)第五步主要是檢測有無reads比對到外源序列,假如沒有reads比對到外源序列,材料就不是真正的轉基因材料; 如有reads比對到外源序列,需進一步統計外源序列覆蓋度與覆蓋深度,評估結果可靠性,參考如下:

samtools mpileup -f ref.genome.fa example.bam >example.txt # -f參考文件

簡單看一下example.txt格式:

圖3 各列意義:參考序列名/位置/參考鹼基/比對上的reads數/比對鹼基/鹼基質量/

根據example.txt第2列和第4列就可以很容易得到外源序列的覆蓋度與覆蓋深度了。

5)講第六步之前,大家需要了解bam文件格式,(http://samtools.github.io/hts-specs/SAMv1.pdf),了解格式之後就可以很輕鬆的把比對到外源序列的reads 信息提取出來,之後就可以去clean reads中提取比對到外源序列的reads了。

samtools view example.bam scaffold_1 > scaffold1.sam #此處假設外源序列名字是scaffold_1

【左右滑動查看完整信息】

6)接下來需要對篩選的reads序列進行拼接組裝,可選擇的軟體也有許多,velvet,soap denovo ,spades(http://cab.spbu.ru/files/release3.11.1/manual.html#sec3.2

)等,簡單點說就是將短reads拼接成更長的contigs,填補gap,由contigs再到scaffolds,reads拼接完成以後,由檢測步驟中的7,8(同樣使用blast軟體),就可以輕鬆得到外源基因的插入位點了。

Spades.py -1 example1.fq -2 example2.fq -o d/ # -1 上遊reads -2 下遊reads -o 輸出目錄

【左右滑動查看完整信息】

7)最後一般會使用igv進行截圖驗證,先隨便來一張,如果在下圖中能看到箭頭所示reads,那就要注意了,很可能那就是你要的結果。

圖4 igv截圖驗證

如果我們對基因組某些區域感興趣,需要查看這些區域的reads覆蓋情況,當然不可能一張張去手動截圖,只需要編輯一個igv.batch格式的腳本即可

snapshotDirectory #截圖需要保存的路徑,goto Chr01:41,804,384-41,816,127 #需要查看的基因組位置snapshot 1.png #生成圖片的名稱goto Chr01:41,832,182-41,843,925snapshot 2.pnggoto Chr01:41,877,711-41,889,454Snapshot

然後IGV工具欄Tools --> Run Batch Script,就可以輕鬆批量截取。如果基因組比較大,查看區域也比較多,不太可能手動編輯如下腳本,可以利用bedtools igv命令。

bedtools igv [OPTIONS] -i <bed/gff/vcf> #igv參數即可,[options]為圖片保存路徑

結尾介紹兩個有瑞士軍刀美譽的序列處理輪子seqtk (https://github.com/lh3/seqtk)和bedtools(http://bedtools.readthedocs.io/en/latest/);小編經常使用,序列處理功能非常強大,這裡簡單介紹一下下~~

比如從fastq文件隨機抽取部分reads

seqtk sample -s11 read1.fq 10000 > sub1.fq #-s隨機數種子seqtk sample -s11 read2.fq 10000 > sub2.fq #雙端測序,需保持-s值一致

比如從bam中提取fastq

bedtools bamtofastq -i example.bam -fq example1.fq -fq2 example2.fq #生成雙端reads,

當然這些工具功能的實現都可以自己編寫腳本,如模仿bedtools bamtofastq命令

samtools view example.bam |perl -lane 'BEGIN{open IN1, ">example1.fq";open IN2,">example2.fq"}{if ($.%2==0){print IN1 "$F[0]\n$F[9]\n+\n$F[10]"}else {print IN2 "$F[0]\n$F[9]\n+\n$F[10]"}}'#利用perl 單行提取雙端reads

值得注意的是bam文件一般按照染色體順序進行排序,這兩種方法都要求bam文件需要按照reads name進行排序。

相關焦點

  • Nat Commun:新技術實現染色體外源基因的有效插入
    ,實現了外源基因向基因組中的有效插入,目前該技術已經在人類細胞、動物模型比如青蛙和蠶中成功實現,該技術不僅可以使得基因在培養中的細胞被插入,也可以在多種有機體中實現外源基因的插入。利用可編程的核酸酶進行的基因組編輯可以實現同源重組介導的基因插入,然而同源重組的活性水平在大多數培養細胞和有機體中非常低,這就為當前開發同源重組介導的基因插入的新型技術帶來了一定的難題。文章中,研究者Ken-ichi T.
  • Excel表格中如何繪製稜錐圖 手把手教你在excel2007中插入稜錐圖
    Excel表格中如何繪製稜錐圖 手把手教你在excel2007中插入稜錐圖時間:2017-07-02 14:14   來源:三聯   責任編輯:沫朵 川北在線核心提示:原標題:Excel表格中如何繪製稜錐圖 手把手教你在excel2007中插入稜錐圖 1、打開一個Excel的文件,選中一個單元格,然後滑鼠左鍵單擊菜單【插入】
  • 魯非/焦雨鈴團隊合作通過全基因組測序重現小麥「家世」
    中國科學院遺傳與發育生物學研究所研究員魯非和焦雨鈴團隊合作通過對共計414種有代表性的普通小麥和近緣麥類物種進行全基因組的重測序,並結合群體遺傳學分析「重現」了小麥的演化歷史。該研究同時挖掘了小麥的基因組多態性,為跨物種轉移適應性成功以進行作物改良奠定基礎並提供新視角。
  • 用PS 做出基因突變位點示意圖,每一步的細節都在這裡了!
    沒關係,下面的小白級教程手把手教會你。   今天給大家帶來的就是如何用 PS 做出一張簡易的基因突變定位示意圖,順便講解 PS 幾種基本工具的使用。   先看樣片。通過對圖片的觀察,我們可以看出這張圖大體是有以下 6 種元素構成:(1)直線(2)帶箭頭的直線(3)斜線(4)圓點(5)白色中空區域(6)文字。
  • 如果你想要「高顏色值」的玉米來這裡尋找跳躍基因
    玉米基因中有許多非常活躍的轉座子。它們就像一把「小刷子」。如果你跳到任何一個基因上,你會抹去那裡原來的「顏色」。因此,穀物的一些顏色變化是由轉座子運動引起的。轉座子不僅改變玉米籽粒顏色,還改變幾乎所有性狀,如株高、抗性和產量。這種獨特的遺傳屬性引起了科學家的興趣。為了育種的目的,不僅要抑制轉座子跳躍引起的表型不穩定性,還要利用轉座子跳躍選擇優良品種。
  • 基因測序解釋RAS基因突變位點對於轉移性結腸癌患者復發率和生存率...
    基因測序揭示RAS基因突變位點對於轉移性結腸癌患者復發率和生存率的影響在過去30年中的科學研究中,科學家們發現更清楚地了解癌症基因突變及其在癌症發生發展當中的影響,對於評估癌症發展程度,轉移風險及疾病預後有著極其積極的作用。
  • 針對大規模全基因組測序數據尋找與常見疾病有關的罕見遺傳變異的...
  • 科學網—全基因組測序重現小麥「家世」
    10月26日,中國科學院遺傳與發育生物學研究所研究員魯非和焦雨鈴團隊合作,對共計414種有代表性的普通小麥和近緣麥類物種進行全基因組的重測序,並結合群體遺傳學分析重現了小麥演化歷史。該研究同時挖掘了小麥的基因組多態性,為跨物種轉移適應性成功以進行作物改良奠定了基礎並提供了新視角。相關成果在線發表於《自然—遺傳學》。
  • 基因治療時代到來:常用基因治療載體的介紹與選擇
    ex vivo:在體轉移,將實驗對象的細胞取出,體外培養並導入重組基因,而後將這些經遺傳修飾的細胞重新輸回實驗動物體內。適用載體:慢病毒、腺病毒、逆轉錄病毒等。接下來我們介紹以下常用的基因治療載體基因治療中的病毒載體逆轉錄病毒(RV):單鏈RNA病毒,可高效地感染多種類型細胞,可以將外源基因隨機插入並穩定整合到宿主細胞基因組中持續表達。
  • 手把手教你學ELISA、PCR、免疫組化
    1.手把手教你學ELISAELISA的基礎是抗原或抗體的固相化及抗原或抗體的酶標記。結合在固相載體 表面的抗原或抗體仍保持其免疫學活性,酶標記的抗原或抗體既保留其免疫學活性,又保留酶的活性。2.手把手教你學PCR實時螢光定量PCR,簡稱RT-QPCR,屬於Q-PCR的一種,目前該技術已得到廣泛應用,如:擴增特異性分析、基因定量分析、基因分型、SNP分析等。
  • 全基因組測序重現小麥「家世」—新聞—科學網
    10月26日晚,中國科學院遺傳與發育生物學研究所研究員魯非和焦雨鈴團隊合作,通過對共計414種有代表性的普通小麥和近緣麥類物種進行全基因組的重測序,並結合群體遺傳學分析「重現」了小麥的演化歷史。該研究同時挖掘了小麥的基因組多態性,為跨物種轉移適應性成功以進行作物改良奠定基礎並提供新視角。相關研究成果在線發表於《自然—遺傳學》雜誌。
  • 測序原理-------一代測序、二代測序、三代測序
    比如對無基因組物種進行從頭測序(de novo sequencing),為後續研究和分子育種奠定基礎;對有基因組的物種,進行全基因組重測序(resequencing),檢測SNP。在轉錄組水平上開展小RNA測序(small RNA sequencing),從而發現新的microRNA分子。
  • 三代重測序告訴你答案 | 群體研究
    1.7Mb的倒位與桃子扁平性狀共分離對蟠桃品種「124蟠」進行三代和二代重測序,三代測序共得到10x數據,subreads平均長度11.3kb。使用illumina數據對三代數據進行糾錯,糾錯後的三代reads與參考基因組比對call SV,在6號染色體開發得到394個缺失、252個插入、9個倒位,其中在S位點下遊得到一個1.7Mb的倒位,該倒位位點在「124蟠」中存在2種單倍型H1(不含倒位)和H2(含倒位)(圖1A)。
  • 《基因工程》複習資料
    三.載體1.基因載體是一類能自我複製的DNA分子,其中的一段DNA被切除而不影響其複製,可用以置換或插入外源(目的)DNA而將目的DNA代入宿主細胞。插入失活:一個基因位點中插入外源DNA片段,從而使該基因活性喪失的現象。7.α互補:質粒還有一個來自大腸桿菌的經過加工LacZ'的基因,它編碼β半乳糖苷酶胺基酸146個胺基酸,可以和β半乳糖苷酶的缺陷型的大腸桿菌實現基因內互補,恢復分解乳糖的能力。
  • 手把手教你在ppt中設置超連結
    手把手教你在ppt中設置超連結時間:2017-08-05 13:37   來源:三聯   責任編輯:沫朵 川北在線核心提示:原標題:ppt中超連結怎麼添加? 手把手教你在ppt中設置超連結 ppt中超連結怎麼添加?
  • Nature Methods測序方法 :可鑑定和分析插入基因組DNA的核糖核苷酸
    然而,迄今為止人們還無法鑑定和定位這些插入DNA的核糖核苷酸。 喬治亞理工學院和科羅拉多大學的科學家們開發了一種新測序技術,Ribose-seq。該技術可以鑑定和分析插入基因組DNA的核糖核苷酸。這一成果發表在1月26日的Nature Methods雜誌上。
  • 基因測序技術發展歷程
    基因組攜帶了個體的全部遺傳信息,基因測序能夠加深對疾病尤其是惡性腫瘤的分子機制理解,在診斷與治療方面都發揮著重要作用。人類基因組學計劃完成後,基因測序技術的發展更加迅猛,在臨床實踐和基礎研究中的應用更加廣泛。
  • 大豆基因組重測序表明:野生大豆遺傳多樣性更高
    11月15日,由香港中文大學、華大基因研究院、農業部基因組重點實驗室、中國農業科學院等單位合作完成的《31個大豆基因組重測序揭示遺傳多樣性和進化選擇模式》在線發表,並將作為封面故事刊登於下期的《自然—遺傳學》雜誌。這項研究主要由港深兩地科學家合作完成,並在世界上首次對野生大豆和栽培大豆全基因組進行了大規模遺傳多態性分析。
  • 近期全基因組測序研究進展一覽
    ,來自國外的研究人員通過研究,利用全基因組測序和機器學習等技術成功實現了對每個人面部及其它機體特徵進行鑑別。全基因組關聯性研究助力尋找遺傳發病原因DOI:10.1016/j.jaci.2017.09.015近日,一篇發表在國際雜誌Journal of Allergy and Clinical Immunology上的研究報告中,來自英屬哥倫比亞大學和麥吉爾大學的研究人員通過研究發現了和機體花生過敏相關的一種新型基因
  • CRISPR-Cas9基因編輯技術原理動畫
    Spacer區域由俘獲的外源DNA組成,類似免疫記憶,當含有同樣序列的外源DNA入侵時,可被細菌機體識別,並進行剪切使之表達沉默,達到保護自身安全的目的。通過對CRISPR簇的側翼序列分析發現,在其附近存在一個多態性家族基因。