----/ BEGIN /----
這篇文章源自上周知識星球星友的一個提問。
當時星友感興趣的地方在於Insertsize可以有什麼用,後來知道他(她)其實真正想搞明白的是:插入片段到底是什麼。
可能對於許多生信肉鳥來說,並不覺得這是一個問題,有時太過熟悉覺得顯而易見,最後反而是視而不見。但殊不知對於很多新手而言,特別是完全不知道NGS技術的跨界新手來說,卻不是一個簡單的問題(其實把簡單的問題搞明白也並非都是一件容易的事情)。相信許多人第一次看到這個東西的時候心中或多或少都會有類似的困惑,我曾經也有過這樣的疑問,我不明白什麼是「插入片段」,甚至不明白為什麼會有「插入片段」這種詞。所以,這一篇文章我們就主要來說說什麼是二代測序的插入片段以及它的特點都有哪些。
什麼是插入片段(Insert)?
「插入片段」,英文術語中用「Insert」來表達。這個術語其實由來已久,在NGS技術發展起來之前就已經存在了,那是一個利用大腸桿菌(E.coli)作為容器進行DNA克隆的時代。Insert是當時的一個標準詞,指的就是把一段DNA序列植入到大腸桿菌的基因組中,利用大腸桿菌的自我增殖和克隆達到擴增這一個DNA序列的目的。而這個被植入的片段就叫插入片段,以這樣的詞語形象表達出它是一個插入在大腸桿菌中的外來DNA序列。
在NGS中,雖然擴增這個事情依然是剛需,但載體卻早以不再是大腸桿菌,而是其它的序列擴增技術(下文詳述),不過由於形式有些類似,這個詞也就一直被沿用下來了。
那麼,在二代短序列高通量測序中這個插入片段具體是怎麼樣的呢?要更好地說清楚它,不得不再提一下測序的過程。
測序的第一步是構建適當的DNA測序文庫。這個文庫的構建步驟一般如下:
利用超聲或者酶切技術把那些從細胞中提取出來的一堆亂糟糟DNA進行打斷,然後末端修復,把分叉的末端序列修平;
電場跑膠,專業術語是凝膠電泳——DNA分子在電場裡「遊泳」。由於不同長度的DNA分子片段所帶電量(它們都帶負電荷)不同,那麼在電場作用下,有些就跑得快有些就慢,一段時間之後不同長度的DNA片段就在電場中分開了,如下圖;
圖1. 凝膠電泳使不同長度的DNA片段實現分離
3. 在2的基礎上,挑選出特定長度的DNA序列——比如我們挑選上圖中400bp長度的序列,它們就是我們要測序的主體序列,也就是要被植入的「插入片段」。只不過在二代測序中,不是植入到大腸桿菌裡了,而是在它們的兩頭分別加上測序用的接頭(adapter),然後進行(PCR)序列擴增,最後再上機測序,這個加完接頭之後的樣子,如圖2所示。
這裡整個片段(Fragment)中,兩端深藍色部分是測序接頭(adapter),中間淺藍色是我們的DNA序列,也就是所謂的插入片段,我們所說的插入片段長度(Insertsize)指的就是這個淺藍色部分的長度。它兩端所加的接頭主要有兩個作用:
當然測序接頭的結構其實要比圖中更複雜一點的,但在這裡我為了表述上的方便就做了簡化,只畫作一個。
圖2. 插入片段結構示意圖
另外,中間淺藍色插入片段的這一個序列,它的真實長度,我們其實是沒辦法精確知道的。因為我們沒法直接去數這些片段上的鹼基個數,只能通過測序。但二代短讀長測序技術,又只能從這個淡藍色片段的一個末端或者兩個末端開始測,比如圖中是Pair-End(PE)測序*,測的是兩個末端,得到的序列是Read1和Read2,很多時候Read1+Read2的長度都是小於這個插入片段的長度的。在不測通的情況下,它中間一定有一段不明長度的序列我們無法測到,這段不被測到的序列有時被稱為Inner序列,它的長度是Read1和Read2相距的距離(圖2中紅色雙箭頭所指的序列)。
*在二代短讀長測序(Illumina或者BGISEQ系列等)時,無論是WGS、WES、WGBS、RRBS還是RNAseq,都有兩個不同的測序類型可以選擇:單末端測序(Single End,簡稱SE)和雙末端測序(Pair-End,簡稱PE)。
Read1 和 Read2發生重疊
Read1和Read2有時是會發生重疊的,這個重疊並不是指兩個序列相連了(測序的時候,Read1和Read2是分開生成的,而不是兩端同時開始測,所以不可能相連),而是相互測到了對方覆蓋的片段了,如下圖3。這是怎麼發生的呢?有兩種情況會導致這個現象的發生:
圖3. Read1和Read2由於插入片段長度過短,測序時出現相互重疊
圖4. 插入片段長度分布
Read重疊會給我們的數據分析帶來不利影響嗎?基本不會,而且對於第二種情況,往往也還不需要做額外的處理,正常分析就好。對於第一種情況,很多時候是故意要這麼設計的(當然不一定要用MiSEQ,其它的也行,只要調節好插入片段和Read讀長即可)。在有些數據分析中,我們會故意挑選短的插入片段,確保Read1和2可以重疊,比如在基因組組裝的場景中,設計梯度文庫的時候,一般都會有一個小長度文庫,目的就是把這個小長度文庫的Read1和Read2連起來,合成一條超級Read,這樣可以協助進行序列構建和補洞,把物種基因組裝的更好。
另外,合併這類重疊的Read也有一些不錯的工具可以使用,比如pandaseq: http://pandaseq-tutorial.readthedocs.io/en/latest/tutorial/
測通
除了上述的Read重疊之外,還有一種特別的情況,叫做:測通。它是Read重疊的進一步延伸,原因是相同的,就是有些插入片段長度太短了,導致Read能夠完全跨越整個插入片段,比如圖4裡,所有長度小於100bp的插入片段,它們都會被測通,而且還會直接測到片段兩端的接頭序列。如下圖5,就是一個序列測通的示意圖,這是一個我們不願意看到的現象,同時它是Read中存在接頭汙染的主要來源。
這也是為什麼接頭序列一般都是出現在Read的末尾的原因,我們需要cut adapter也是這麼來的。
圖5. 插入片段較短,導致測通,read末端出現測序接頭
插入片段長度是否能反映測序質量?
雖然,插入片段在跑膠之後選擇出來時,其長度存在不可避免的誤差,會有波動,甚至有時波動還不小,但它不能反映測序質量(這裡排除meta-pair的情況)。因為測序質量並不直接受插入片段長度所影響,而是受試劑、測序晶片、光學相機、機器運行情況、實驗室環境(地震、曝曬)等更加複雜的系統和外部因素所決定的。
Pair-End和插入片段長度的作用:改善變異檢測
雖然二代短讀長測序技術,獲得不了超長的Read讀長,但是雙末端測序(Pair-End)獲得的Read1和Read2包含了三個非常有用的關係信息,分別是:彼此相連,距離和序列方向。這些信息是基因組變異檢測特別是結構性變異檢測的關鍵信號。我其實在《一篇文章說清楚基因組結構性變異檢測的方法》中詳細談到了如何利用Read Pair(也就是PE信息)來進行變異檢測的方法,這裡就不再贅述了,大家如果不了解可以移步過去看看,總之圍繞它可以檢測多種不同類型的結構性變異如下:
圖6. 利用RP所能檢測的變異類型
小結
那麼,這裡關於什麼是插入片段的內容就先到此為止了。
----/ END /----
這是知識星球:『解螺旋技術交流圈』,是一個我與讀者朋友們的私人朋友圈。我有9年前沿而完整的生物信息學、NGS領域的科研經歷,在該領域發有多篇Nature、Cell級別的科學文章,我也希望藉助這個知識星球把自己的一些微薄經驗分享給更多對組學感興趣的夥伴們。
這是知識星球上第一個真正與基因組學和生物信息學強相關的圈子,也是官方評定的優秀星球。我希望能夠藉此營造一個高質量的組學知識圈和人脈圈,通過提問、彼此分享、交流經驗、心得等,彼此更好地學習生信知識,提升基因組數據分析和解讀的能力。
在這裡你可以結識到全國優秀的基因組學和生物信息學專家,同時可以分享你的經驗、見解和思考,有問題也可以向我提問和圈裡的星友們提問。