生物信息學100個基礎問題 —— 第11題 使用cutadapt去除adapter

2021-02-21 高通量測序技術

Hello大家好!我們又見面了!

通過前面的生物信息學10個基礎問題,我相信大家對測序的基本原理,FASTA與FASTQ格式以及FastQC的質控報告都有了一個清楚的認識。那麼接下來,我們就要進一步學習,學習如何把原始的FASTQ測序結果一步一步的準備成可以用來比對(mapping)的質控過後的FASTQ。

在生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer(請點擊「原文連結」查看!)中,我們知道,測序結果中可能會有若干條序列存在adapter的信息,而adapter的信息一般是不在基因組上存在的。所以,在比對之前如果不把adapter去乾淨,我相信你會得到1個非常非常低的mapping rate。

圖1 RNA-Seq建庫的結果,如果不去adapter接下來根本比對不上!

通常情況下,我們都是使用cutadapt這個軟體進行adapter(接頭)序列的去除。cutadapt這個軟體不但支持單端序列,還支持雙端序列的切除,同時還支持gz格式的自動壓縮與解壓縮。1個常用的切除命令類似:

cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq

那麼我們今天需要思考的問題,與切除adapter的具體內容有關。

問題1. cutadapt中-a/-A 參數與-g/-G參數分別代表什麼意思?Illumina測序過程中,一般不會用到哪個參數?

問題2. cutadapt可以過濾一些非常短的reads,請解釋其中-m 參數是什麼意思?為什麼要過濾一些非常短的reads?

問題3. 在測序的過程中,我們經常發現一些序列的3'端的測序質量不太好(如圖2所示),即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。cutadapt可以使用一些辦法來去除3'端質量不太好的序列。請說明用哪個參數來設置相關的cutoff,並簡要說明cutadapt對read質量判斷的策略與方法。

圖2 一般3'端的序列質量不夠好,即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。

參考資料:

請點擊「原文連結」查看!

相關焦點

  • 高通量測序原始數據中,adapter序列的去除及cutadapt使用介紹
    因為在測序過程中未知片段的長短是不確定的,當我們的測序長度長於未知片段的時候,就會測到某一端的adapter序列。如下圖中,如果我們的未知片段(灰色點部分)長度為85bp,我們設定的read1測100bp,這個時候就會測到15bp的5』端adapter,即右側的紅色部分。
  • 關於去RNA-Seq數據去接頭(Adapter)這事我需要講一講
    3、insert是用於測序的目標片段,因為是包括在兩個adapter之間,所以被稱為「插入」片段。一個常見測序片段類似與adapter--barcode--insert--adapter。測序開始時前幾個鹼基無法測得,第一個adapter在數據輸出時被去除;由於測序儀讀長限制,第二個adapter通常無法測得。
  • 信息學奧賽太原市集訓隊零基礎選拔活動通知
    滿分110分,其中附加題10分,時間為1.5小時。 考試內容為邏輯思維能力題,題型為選擇題(10分)、填空題(50分)、解答題(40分)、附加題(10分);主要考核學生快速學習及應用能力,通過考試初步評估學生學習信息學的天賦及能力,這是全球選拔信息學人才的通用手段。
  • 這裡有10G的生物信息學中個層次的分析技術匯總
    生物信息學(Bioinformatics)是研究生物信息的採集、處理、存儲、傳播,分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅速發展,生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術揭示大量而複雜的生物數據所賦有的生物學奧秘。
  • 「100」題搞定期末考試,七年級下冊生物期末考試就這麼簡單!
    七年級生物主觀題匯總——知識點運用必考題型期末考試迫在眉睫,不知道同學們複習得怎麼樣?尤其是生物這一門,因為生物並不是典型的問文科,很多邏輯性非常強的知識點,所以很多同學反映自己不知道重點,摸不清方向,不知道從何下手。
  • 生物信息學專業十強
    在2007、2012年的生物醫學工程學科全國評估中排名第一生物醫學工程一級學科下自主設置神經信息工程二級學科,還具有學習科學、生物信息技術、醫學圖像與醫學電子學、生物醫學納米技術、生物醫學材料等重要發展方向。設有生物醫學工程、信息與系統生物學、醫學與生物物理學等3個學系,及生物醫學工程、生物信息學等2個本科專業,及生物醫學工程本碩連讀專業。
  • 生物信息學為大數據 「插上翅膀」
    圖為陳潤生院士正在做報告「如今,生物信息學正扮演著越來越重要的角色,它也是資訊時代帶給生物醫學的巨大推動力。」8月3日,在第十四屆國際生物信息學論壇(IBW 2019)上,哈佛大學教授劉小樂表示,生物醫藥領域產生了海量的數據,如何通過生物信息學與計算科學弄懂這些數據,成為生命科學領域專家共同關注的話題之一。
  • 英語短語cut up、cut down、cut out與cut off,如何辨析與牢記
    有這樣一個填空題:……Mother advised me that I (should) cut ___ playing computer games…….而能表達相近意思的可能短語有cut down(on)、cut out和cut off,究竟應該選用哪一個呢?除了準確地記住各個短語的詞意及用法,別無它法。為此,我們應如何來輕鬆地牢記它們且不混淆呢?針對這類形近和/或意近的詞或詞組的學習、理解和記憶,常用的有效方法就是比較與分析。
  • ...信息學,基因晶片相關信息學技術,藥物基因組信息學和系統生物學
    多年來一直從事生物醫學信息學、數學與計算機方法及醫學應用等方面的教學和科研工作,曾從事藥物動力學、數量遺傳學、計算分子生物學、基因組信息學和醫學信息學等方面的教學與研究工作,主持與參加國家自然科學基金項目(3項)在內的26項課題的研究工作,發表科研論文100餘篇,其中SCI( 8篇)、EI (2篇), 編著、主編和主審著作9部,曾多次獲得科研獎勵。
  • 生物信息學相關網站
    用於比較基因組學的生物信息學工具:http://pga.lbl.gov/Workshop/webTools.html      用於比較基因組學的生物信息學工具是勞倫斯伯克利國家實驗室提供的用於比較基因組學的生物信息學的軟體、資料庫和網址資源。其涵蓋五個大類分別是:基因組數據、注釋、比較基因組、陣列資源、雜集。
  • 高中英語怎麼學?硬核純乾貨建議收藏!
    給你分享下哈~待會你就知道高中英語怎麼學了。1、背單詞的方法說句你可能不大相信的話,在背單詞這塊,我真沒咋發過愁。因為我用的是劃了重點的單詞書:閃過英語《高考詞彙閃過》,背單詞特省時。裡面的3500個單詞是按重要程度劃分的,真題常考的重點單詞已經全部劃出來了,總共才832個。和其他單詞書相比,要少背2000+個單詞呢。
  • 生物信息學專業:生物+計算機(高考家長每日必讀),No.85
    三個緯度講專業:1、學什麼;2、幹什麼;3、報考建議相信很多家長都沒聽過這個專業。算是新興學科。簡單來講,就是利用計算機來幫助解決生物學中遇到的各種問題。學什麼呢:最核心課程三大部分:生物學、數學、計算機科學課程有:生物化學、分子生物學、概率統計、數據結構及實驗、基因組信息學、轉錄組信息學、蛋白質組信息學、計算機輔助藥物發現、現代統計與生物信息學。
  • 魏冬青——上海交通大學——生物信息學,計算生物學,計算化學...
    研究領域: 生物信息學,計算生物學,計算化學,計算機輔助藥物設計,計算與統計物理學 聯繫方式 E-Mail: dqwei@sjtu.edu.cn
  • 合肥八中老師談高考複習:生物拒絕題海 偏愛術語
    合肥八中老師談高考複習:生物拒絕題海 偏愛術語 2012-06-06 22:11:44   來源:新安傳媒網
  • 高考理綜,生物非選擇題拿高分,這些方法一定得掌握
    高考理綜,我們要在150分鐘內完成三個學科的考試,時間短任務重,所以同學們有必要掌握一定的答題技巧來提高解題速度,以爭取拿到儘可能高的分數。今天百家號,人生底色看語文的生物老師結合多年的高考實戰經驗,總結了高考理綜生物非選擇題的解題技巧,在這裡分享給更多需要的同學們,助大家高考一臂之力。
  • 100個常考地理問題22——海岸地貌
    100個常考地理問題18——長江流域洪澇災害多發的原因100個常考地理問題19——地形對交通和聚落的影響100個常考地理問題20——我國商品農業可持續發展的方向100個常考地理問題21——影響運輸成本的主要因素100個常考地理問題22——海岸地貌
  • 生物基礎細胞構築,四川省2019年初中學業水平考試生物第5題解析
    中考試題,一題一論:四川省達州市2019年初中學業水平考試生物第5題,原題如下:5.圖二是某同學利用顯微鏡觀察而繪製的動植物細胞模式圖,圖三是該同學繪製的某生物細胞發生的一系列變化過程模式圖。,涉及了顯微鏡的使用、植物細胞的結構和功能以及細胞的分裂和分化。
  • 初中生物練習題之生命起源和生物進化檢測題
    第5單元生物的多樣性     第十六章生命起源和生物進化檢測題     本檢測題滿分:100分,時間:60分鐘     一、選擇題(本大題共25小題,每小題2分,共50分。每小題只有一個選項符合題意。)
  • 初中生物練習題之第一次限時訓練卷
    初二級生物第一次限時訓練卷(3周)     命題人:初二備課組審核人:徐衡     班級____________姓名_______________座號_______________成績_____________     單項選擇題(本卷包括30題,每題1分,共30分。)