一篇文章說清楚什麼是「插入片段」?

2021-03-02 鹼基礦工

----/ BEGIN /----

這篇文章源自上周知識星球星友的一個提問。

當時星友感興趣的地方在於Insertsize可以有什麼用，後來知道他（她）其實真正想搞明白的是：插入片段到底是什麼。

可能對於許多生信肉鳥來說，並不覺得這是一個問題，有時太過熟悉覺得顯而易見，最後反而是視而不見。但殊不知對於很多新手而言，特別是完全不知道NGS技術的跨界新手來說，卻不是一個簡單的問題（其實把簡單的問題搞明白也並非都是一件容易的事情）。相信許多人第一次看到這個東西的時候心中或多或少都會有類似的困惑，我曾經也有過這樣的疑問，我不明白什麼是「插入片段」，甚至不明白為什麼會有「插入片段」這種詞。所以，這一篇文章我們就主要來說說什麼是二代測序的插入片段以及它的特點都有哪些。

什麼是插入片段（Insert）？

「插入片段」，英文術語中用「Insert」來表達。這個術語其實由來已久，在NGS技術發展起來之前就已經存在了，那是一個利用大腸桿菌（E.coli）作為容器進行DNA克隆的時代。Insert是當時的一個標準詞，指的就是把一段DNA序列植入到大腸桿菌的基因組中，利用大腸桿菌的自我增殖和克隆達到擴增這一個DNA序列的目的。而這個被植入的片段就叫插入片段，以這樣的詞語形象表達出它是一個插入在大腸桿菌中的外來DNA序列。

在NGS中，雖然擴增這個事情依然是剛需，但載體卻早以不再是大腸桿菌，而是其它的序列擴增技術（下文詳述），不過由於形式有些類似，這個詞也就一直被沿用下來了。

那麼，在二代短序列高通量測序中這個插入片段具體是怎麼樣的呢？要更好地說清楚它，不得不再提一下測序的過程。

測序的第一步是構建適當的DNA測序文庫。這個文庫的構建步驟一般如下：

利用超聲或者酶切技術把那些從細胞中提取出來的一堆亂糟糟DNA進行打斷，然後末端修復，把分叉的末端序列修平；

電場跑膠，專業術語是凝膠電泳——DNA分子在電場裡「遊泳」。由於不同長度的DNA分子片段所帶電量（它們都帶負電荷）不同，那麼在電場作用下，有些就跑得快有些就慢，一段時間之後不同長度的DNA片段就在電場中分開了，如下圖；

圖1. 凝膠電泳使不同長度的DNA片段實現分離

3. 在2的基礎上，挑選出特定長度的DNA序列——比如我們挑選上圖中400bp長度的序列，它們就是我們要測序的主體序列，也就是要被植入的「插入片段」。只不過在二代測序中，不是植入到大腸桿菌裡了，而是在它們的兩頭分別加上測序用的接頭（adapter），然後進行（PCR）序列擴增，最後再上機測序，這個加完接頭之後的樣子，如圖2所示。

這裡整個片段（Fragment）中，兩端深藍色部分是測序接頭（adapter），中間淺藍色是我們的DNA序列，也就是所謂的插入片段，我們所說的插入片段長度（Insertsize）指的就是這個淺藍色部分的長度。它兩端所加的接頭主要有兩個作用：

當然測序接頭的結構其實要比圖中更複雜一點的，但在這裡我為了表述上的方便就做了簡化，只畫作一個。

圖2. 插入片段結構示意圖

另外，中間淺藍色插入片段的這一個序列，它的真實長度，我們其實是沒辦法精確知道的。因為我們沒法直接去數這些片段上的鹼基個數，只能通過測序。但二代短讀長測序技術，又只能從這個淡藍色片段的一個末端或者兩個末端開始測，比如圖中是Pair-End(PE)測序*，測的是兩個末端，得到的序列是Read1和Read2，很多時候Read1+Read2的長度都是小於這個插入片段的長度的。在不測通的情況下，它中間一定有一段不明長度的序列我們無法測到，這段不被測到的序列有時被稱為Inner序列，它的長度是Read1和Read2相距的距離（圖2中紅色雙箭頭所指的序列）。

*在二代短讀長測序（Illumina或者BGISEQ系列等）時，無論是WGS、WES、WGBS、RRBS還是RNAseq，都有兩個不同的測序類型可以選擇：單末端測序（Single End，簡稱SE）和雙末端測序（Pair-End，簡稱PE）。

Read1 和 Read2發生重疊

Read1和Read2有時是會發生重疊的，這個重疊並不是指兩個序列相連了（測序的時候，Read1和Read2是分開生成的，而不是兩端同時開始測，所以不可能相連），而是相互測到了對方覆蓋的片段了，如下圖3。這是怎麼發生的呢？有兩種情況會導致這個現象的發生：

圖3. Read1和Read2由於插入片段長度過短，測序時出現相互重疊

圖4. 插入片段長度分布

Read重疊會給我們的數據分析帶來不利影響嗎？基本不會，而且對於第二種情況，往往也還不需要做額外的處理，正常分析就好。對於第一種情況，很多時候是故意要這麼設計的（當然不一定要用MiSEQ，其它的也行，只要調節好插入片段和Read讀長即可）。在有些數據分析中，我們會故意挑選短的插入片段，確保Read1和2可以重疊，比如在基因組組裝的場景中，設計梯度文庫的時候，一般都會有一個小長度文庫，目的就是把這個小長度文庫的Read1和Read2連起來，合成一條超級Read，這樣可以協助進行序列構建和補洞，把物種基因組裝的更好。

另外，合併這類重疊的Read也有一些不錯的工具可以使用，比如pandaseq： http://pandaseq-tutorial.readthedocs.io/en/latest/tutorial/

測通

除了上述的Read重疊之外，還有一種特別的情況，叫做：測通。它是Read重疊的進一步延伸，原因是相同的，就是有些插入片段長度太短了，導致Read能夠完全跨越整個插入片段，比如圖4裡，所有長度小於100bp的插入片段，它們都會被測通，而且還會直接測到片段兩端的接頭序列。如下圖5，就是一個序列測通的示意圖，這是一個我們不願意看到的現象，同時它是Read中存在接頭汙染的主要來源。

這也是為什麼接頭序列一般都是出現在Read的末尾的原因，我們需要cut adapter也是這麼來的。

圖5. 插入片段較短，導致測通，read末端出現測序接頭

插入片段長度是否能反映測序質量？

雖然，插入片段在跑膠之後選擇出來時，其長度存在不可避免的誤差，會有波動，甚至有時波動還不小，但它不能反映測序質量（這裡排除meta-pair的情況）。因為測序質量並不直接受插入片段長度所影響，而是受試劑、測序晶片、光學相機、機器運行情況、實驗室環境（地震、曝曬）等更加複雜的系統和外部因素所決定的。

Pair-End和插入片段長度的作用：改善變異檢測

雖然二代短讀長測序技術，獲得不了超長的Read讀長，但是雙末端測序(Pair-End)獲得的Read1和Read2包含了三個非常有用的關係信息，分別是：彼此相連，距離和序列方向。這些信息是基因組變異檢測特別是結構性變異檢測的關鍵信號。我其實在《一篇文章說清楚基因組結構性變異檢測的方法》中詳細談到了如何利用Read Pair(也就是PE信息)來進行變異檢測的方法，這裡就不再贅述了，大家如果不了解可以移步過去看看，總之圍繞它可以檢測多種不同類型的結構性變異如下：

圖6. 利用RP所能檢測的變異類型

小結

那麼，這裡關於什麼是插入片段的內容就先到此為止了。

----/ END /----

這是知識星球：『解螺旋技術交流圈』，是一個我與讀者朋友們的私人朋友圈。我有9年前沿而完整的生物信息學、NGS領域的科研經歷，在該領域發有多篇Nature、Cell級別的科學文章，我也希望藉助這個知識星球把自己的一些微薄經驗分享給更多對組學感興趣的夥伴們。

這是知識星球上第一個真正與基因組學和生物信息學強相關的圈子，也是官方評定的優秀星球。我希望能夠藉此營造一個高質量的組學知識圈和人脈圈，通過提問、彼此分享、交流經驗、心得等，彼此更好地學習生信知識，提升基因組數據分析和解讀的能力。

在這裡你可以結識到全國優秀的基因組學和生物信息學專家，同時可以分享你的經驗、見解和思考，有問題也可以向我提問和圈裡的星友們提問。

相關焦點

一篇文章說清楚法蘭距和卡口的秘密

隨著近期全畫幅微單相機的大量上市，很多粉絲突然開始關注了，用他們的話，「看了半天，硬是沒有看懂」，今天我們就來一次說清楚。之前，我已經寫過一篇文章《58mm f/0.95是你想要的嗎？為何大光圈鏡頭很貴》，給大家詳細描述了，法蘭距和卡口直徑是如何影響鏡頭的最大光圈。很多人迷惑，微單相機的法蘭距怎麼就突然變短呢？
一篇文章說清楚:小學階段如何做整體的學科規劃!

因為我有底氣地說，孩子如果達到以上水平，應該沒有誰敢說他們不優秀。了解尖子生頭部水平，不是為了更好地去崇拜。而是方便我們定位小學六年目標。最高綱領——是否爭取孩子也拿下以上標準？中部目標——是否可以實現裡面的一兩樣？爭取一兩門科目拓展成功，初中可以解放一些壓力呀；最低要求——起碼將校內成績拿下，也能說明小孩有紮實基礎和良好學習態度。
研究發現:CRISPR可能導致大量重複片段插入基因組且無法被PCR等...

研究發現：CRISPR可能導致大量重複片段插入基因組且無法被PCR等標準方法識別 Evelyn Zhang • 2020
給你bam文件,你會畫插入片段長度分布圖嗎?

對於ATAC文庫而言，其插入片段的長度分布有著非常典型的規律，示意如下每200bp會存在一個峰，這個周期性波動反應的是核小體的個數。在ATAC_seq的數據分析中，會對插入片段長度分布進行可視化，觀察其是否符合這樣的周期性規律，一定程度可以反映文庫構建的質量，那麼如何在做這樣一張分布圖呢?
印度學者稱新冠病毒特有基因插入片段跟HIV很像,不太像自然進化...

，這4個片段是新冠病毒（2019-nCoV）所獨有的，其他冠狀病毒中沒有這些插入片段。然而，作者聲稱，所有的4個插入片段中的胺基酸殘基均與人類免疫缺陷病毒1型（HIV-1）的複製蛋白 gp120或 Gag中的胺基酸殘基具有相同性或相似性。HIV-1是導致人類愛滋病的主要病毒。
一篇文章賺七千,自媒體時代,誰成就了誰

今天在我刷文的時候，看到一篇文章，這篇文章的標題是： "中國老牌汽水「重出江湖」，一年賣出3個億，讓可口可樂措手不及"。當我看到這篇文章，已經是前天寫的了，截止到今天，他的閱讀量已經250多萬了，評論4500多條，而且這還不是最終數據，他還會不斷的往上升，最後數據在月底會公布。
一篇文章寫完啦

因為我必須趕在零點前把文章發布。因為微信公眾號每天只可以發一條。還有一些時候，寫著寫著竟然睡著了，而且還是站著打字。就在剛要睡著的那一瞬間大腦又清醒過來。於是又繼續打字，然後又在一瞬間又打起了瞌睡。一篇文章就這樣在半夢半醒中寫完了。在那些晚上，為了寫出一篇文章，也真是歷盡千山萬險，用盡各種招數。
升級版轉座子CRISPR-Cas系統電鏡圖揭示如何精準插入大片段DNA

對於側重於敲除和降解目標DNA、且屢受到脫靶困擾的CRISPR技術，這種新的、精準插入大片段的基因編輯工具有望提供重要的補充。CRISPR技術的應用前景和限制，極大地推動了科學家們研究改良各種基因編輯工具的熱情。
一篇文章把天絲說清楚(純乾貨)

天絲是萊賽爾的一個最知名品牌，也就是說天絲是萊賽爾，而萊賽爾不一定是天絲。萊賽爾-- Lyocell (萊賽爾)是一種新型再生纖維的稱呼，是國際通用品類稱呼。萊賽爾是一個大類別，和棉，絲等處於同等品類。莫代爾--Modal （莫代爾）是Lenzing公司的專利產品，也是一種再生纖維。
Endnote插入參考文獻的保姆級教程

這倒不是什麼難事，最煩人的是參考文獻的插入。一篇博士論文下來，參考論文不說300篇，也有那麼一二百篇吧，一個一個加豈不是愁死人。同學們不用怕，今天用endnote插入參考文獻的保姆級教程來啦，基本能夠滿足我的需求，希望也能滿足大家的需求喲！內容主要分為兩部分：第一部分，如何插入參考文獻；第二部分，如何通過endnote和word修改參考文獻，滿足不同期刊及畢業論文的格式要求。
寫一篇拍案叫絕的好文章需要這樣做

上一篇分享了：如何構建一篇文章的框架，並掌握了如何寫文章的開頭、結尾和小標題。這篇分享的是：如何寫出一篇讓人拍案叫絕的好文章？這裡特別強調的是，那種信息說到一半就停止，給讀者的感覺是戛然而止。甚至有的時候提到生僻的名詞概念也不解釋，直接忽略過去。讀者廢了大半天看完了內容，卻不知道講了什麼意思，這樣豈不是浪費對方的時間嗎？
第二章:學會畫面組合式文章模板,要寫好一篇文章,其實很簡單

畫面組合式文章結構的基本模式是：開頭點明中心——中間寫幾個畫面即幾個片段，每個畫面圍繞中心展開寫——結尾照應開頭，再次點明中心。這種文章模式通俗易懂，但中間選取的幾個畫面要典型，把最精彩的鏡頭呈現出來即可，不必像寫記敘文那樣把事件的來龍去脈寫得具具體體。如何寫好這類文章，下面請欣賞一篇優秀作文，並一步一步地解剖分析，全方位掌握寫作技巧。
知乎賺錢實戰:我是如何一篇文章賺 3000+

這篇文章不僅乾貨非常多，教大家爬蟲的數據如何使用，最重要的是可複製的體系玩法。毫不誇張的說，如果本文的思路，你都能掌握，一個月賺它3K+ 是非常輕鬆的一件事。1什麼是知乎好物在開始講乾貨之前，還需要先給大家講清楚知乎好物是什麼。開頭的收益圖是來自知乎最近一年新出的功能叫【知乎好物】。那什麼是知乎好物?知乎好物你可以理解就是在知乎上賣東西。如果你的帳號擁有了知乎好物功能，就能在問答裡插入商品連結。
一篇文章賺1000塊錢!什麼時候發文最賺錢?

很多新手在學習通過寫文章來賺錢時，都會有這樣的問題：什麼時候發文章，閱讀量最高呢？閱讀量越高，自然這一篇文章的收益就越多。可是，一天24小時，哪個時間段發文的效果最好呢？今天，time的這一篇文章就給大家講講這方面的內容。
《寫作變現》:新手小白如何快速寫出一篇好文章

羅振宇在《奇葩說》中坦言道：當今社會，人最重要的兩項能力，其中一項是寫作。如果說學生時代，什麼事情讓我記憶最深刻，估計就是一遍一遍被要求修改的作文了，因為我一直害怕寫作文，不知道寫什麼，不知道怎麼把自己心裡想的表達出來，語文成績一直被作文拖後腿。
什麼是換手率?換手率大於45%代表什麼?一篇文章清晰解釋清楚!

換手率是什麼？1、概念「換手率」也稱「周轉率」，是指在一定時間內市場中股票轉手買賣的頻率，為日成交量與流通股的比值，是反映股票流通性強弱、市場交投活躍程度的指標之一。換手率大於45%意味著什麼？比如說一隻股票平時的換手率只有5%以下，然後突然換手率提升到10%以上，說明這隻股受到市場關注，開始明顯活躍，在每一階段的牛股，一般換手率都會出現明顯的上升，比如下面這隻股票：漫步者。
阿膠養顏補氣血的真相,一篇說清楚

是誰說 LV 的生意好做的！我自己其實對阿膠這個東西之前了解的也不多，東北長大所以身邊人說的都是人參鹿茸林蛙油... 身邊雖然有知道朋友吃相關的東西，但感覺相對沒網上流傳的那麼熱衷。所以，今天的文章也是我自己一個學習、了解的過程了。
健身|一篇文章,讓你看懂半蹲、深蹲、全蹲有什麼不同?

健身｜一篇文章，讓你看懂半蹲、深蹲、全蹲有什麼不同？這篇文章要說的是三種不同的蹲法，它們分別是半蹲、深蹲、全蹲。這三種蹲法對應鍛鍊不同的肌肉。練習時，你需要根據自己的訓練目標，選擇正確的動作，你的訓練效果才會事半功倍。如果你對這三種蹲法沒有概念，那麼請看下圖：上圖從左到右分別是：淺蹲→四分之一蹲→半蹲→深蹲→全蹲。再來具體說一下淺蹲、半蹲、深蹲、全蹲的姿勢：淺蹲：髖關節明顯高於膝關節的蹲。
SEO誤人誤己的臆想:原創文章究竟是什麼?

本期解決的內容：SEO誤人誤己的臆想總結分析：原創文章——文章質量很多參與過SEO培訓的夥伴們都知道，每一個人都大力強調原創文章的重要性，而且相信各位站長和優化人員實際操作的時候將這三篇文章合併為一篇即可。為什麼這麼做有效呢?大家可以去參考下百度百科，由於對分段高相關性的內容不斷的完善，所以百度百科才會具有如此高的權重，而不完全是因為它屬於百度自己的產品。前幾名的文章一定是內容對搜索用戶具有價值的，如果你三合一了是否更有價值了?
戰列艦巡洋艦驅逐艦傻傻分不清楚?一篇文章全部搞定

經常在介紹戰爭歷史的文章裡看到航空母艦、戰列艦、巡洋艦、驅逐艦、護衛艦等艦艇的名字。這些艦艇各自有什麼功能嗎？怎麼區分它們了？沒關係，一篇文章將他們全部介紹得清清楚楚。在海軍這個大家庭裡面，艦艇是不可或缺的主要裝備。沒有艦艇的存在，海軍就不成其為海軍。按照發揮作用，艦艇分為戰鬥艦艇和輔助戰鬥艦艇。按照航行狀態，艦艇分為兩種，一種是水上艦艇，一種是水下艦艇。

一篇文章說清楚什麼是「插入片段」?

相關焦點

一篇文章說清楚法蘭距和卡口的秘密

一篇文章說清楚:小學階段如何做整體的學科規劃!

研究發現:CRISPR可能導致大量重複片段插入基因組 且無法被PCR等...

給你bam文件,你會畫插入片段長度分布圖嗎?

印度學者稱新冠病毒特有基因插入片段跟HIV很像,不太像自然進化...

一篇文章賺七千,自媒體時代,誰成就了誰

一篇文章寫完啦

升級版轉座子CRISPR-Cas系統電鏡圖揭示如何精準插入大片段DNA

一篇文章把天絲說清楚(純乾貨)

Endnote插入參考文獻的保姆級教程

寫一篇拍案叫絕的好文章需要這樣做

第二章:學會畫面組合式文章模板,要寫好一篇文章,其實很簡單

知乎賺錢實戰:我是如何一篇文章賺 3000+

一篇文章賺1000塊錢!什麼時候發文最賺錢?

《寫作變現》:新手小白如何快速寫出一篇好文章

什麼是換手率?換手率大於45%代表什麼?一篇文章清晰解釋清楚!

阿膠養顏補氣血的真相,一篇說清楚

健身|一篇文章,讓你看懂半蹲、深蹲、全蹲有什麼不同?

SEO誤人誤己的臆想:原創文章究竟是什麼?

戰列艦巡洋艦驅逐艦傻傻分不清楚?一篇文章全部搞定

研究發現:CRISPR可能導致大量重複片段插入基因組且無法被PCR等...