獲取參考基因組chrom.sizes文件的3種方式

2020-10-18 生信修煉手冊

在數據分析中,軟體經常會要求參考基因組對應的chrom.sizes文件,該文件保存了基因組中的染色體名稱已經對應的長度,內容示意如下

第一列為染色體名稱,第二列為染色體的長度。本文介紹一下生成該文件的3種方式

1. 從UCSC下載

這種方法適用於UCSC資料庫中已有的物種。以hg19為例,在UCSC的FTP中直接提供了對應的chr.sizes文件,連結如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/

下載紅框標記的chrom.sizes文件即可。

2. 利用samtools進行提取

samtools的faidx命令可以獲取fasta文件中的序列長度信息,從其生成的後綴為fai的文件中可以獲得chrom.sizes文件,用法如下

samtools faidx hg19.fa
cut -f1,2 hg19.fa.fai > hg19.chrom.sizes

3. 自己寫腳本進行統計

自己寫腳本就比較靈活多變了,無論採用什麼程式語言都可以,這裡用perl給一個示例,代碼如下

運行該腳本即可,命令如下

perl cal_chrom_sizes.pl hg19.fa > hg19.chrom.sizes

第一種方法受到了UCSC資料庫的限制,第二種方法運行速度塊,通用性強,更加推薦使用。自己寫腳本的話,就是更加的靈活,可以根據自己的需求靈活定製。

·end·

相關焦點

  • 參考基因組沒有,經費也沒那麼多,怎麼辦?
    這一步之後,分析流程就要根據是否有參考基因組分別進行分析。無參考基因組需要先有一步的 de novo 組裝,產生能用於比對的contig。有參考基因組則需要考慮基因組的質量,如果質量太差,則需要進一步以無參分析作為補充。參考基因組主要用於區分出假陽性的SNP,將snp與附近其他共線性的snp比較來找出離異值,這些離異值大多是因為建庫過程所引入的誤差,如PCR的鏈偏好性擴增。
  • 茶樹染色體級別參考基因組3
    茶樹染色體級別參考基因組1 茶樹染色體級別參考基因組2 茶由於其特徵性的次生代謝產物具有許多健康益處,因此是最受歡迎的非酒精飲料之一。儘管最近已經發表了茶樹(茶樹)的兩個基因組草圖,但是缺乏染色體規模的裝配妨礙了對茶樹的基本基因組結構及其潛在改進的理解。
  • 華中農大繪製出兩個棉花四倍體栽培種的參考基因組
    該論文介紹了整合多種方法組裝得到的異源四倍體栽培種陸地棉和海島棉的參考基因組序列,為棉花基因組進化和功能基因研究提供了重要參考,對基於基因組的棉花遺傳改良具有重要指導作用。陸地棉是棉花的主要栽培種,其產量高,適應性強。海島棉的產量低,栽培區域性強,但是其纖維品質比陸地棉優。將海島棉中控制優異纖維品質的遺傳片段導入到陸地棉,改良陸地棉的纖維品質,是我校棉花遺傳改良團隊長期堅持的目標。儘管已從海島棉中克隆了一系列功能基因,但這兩個棉花基因組存在什麼樣的差異,究竟哪些基因組片段控制海島棉優異纖維品質的形成等仍不清楚。
  • 如何進行基因組序列比對?
    >關鍵詞:參考序列、比對軟體、SAM文件拿到人基因組全外顯子illumina下機數據fastq文件之後,如何進行後續的變異檢測呢?bam 下面以圖示的形式給大家展示下不同排序方式的sam文件:先來看看fastq文件中Sequence identifier的排序序列fastq文件:less -SN read1.fq
  • 來自人類腸道微生物組的204,938個參考基因組集
    為了確定收集數據集中含有多少物種,作者將 286,997 個基因組進行聚類(ANI > 95%, AF> 30%)。最後得到了 4,644 推測原核物種,其中細菌 4,616 種,古菌 28種。
  • 茶樹染色體級別參考基因組4
    在這裡,該研究報告了古代茶樹的高質量染色體規模參考基因組的裝配。217種不同茶種的進一步具體而言,CsANR,CsF3』5』H和CsMYB5的多種等位基因功能已通過瞬時過表達和酶促測定進行了驗證,從而為兒茶素(茶樹中最重要的生物活性化合物)的生物合成提供了全面的見解。
  • NCBI微生物基因組批量下載
    親愛的科研同僚們,在曲折的探索道路上是否還在為找不到目標物種的基因組而抓耳撓腮?不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。/genomes/genbank/(3) ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/2、通過軟體Filezila批量獲取:將FTP地址輸入Filezila軟體中,點擊快速連結,即可批量將數據導入個人電腦。
  • GATK4.0和全基因組數據分析實踐(上)
    下載E.coli K12的參考基因組序列熟悉的同學應該第一時間能夠知道,這些物種的基因組參考序列都可以在NCBI上獲取,我們這裡也是一樣,可以在NCBI網站上直接搜索這個序列,為了簡化步驟,我直接給出E.coli K12參考序列的ftp地址給大家下載之用:
  • 染色體級別橡膠樹參考基因組圖譜繪就—新聞—科學網
    記者從昆明植物所獲悉,由該所和雲南省熱帶作物科學研究所、華南農業大學基因組學與生物信息學研究中心組成的研究團隊在國際上首次獲得了達到染色體級別的高質量巴西橡膠樹優良品種 GT1的參考基因組序列
  • 關於文件,你真的了解嗎?Python使用stat模塊詳細獲取文件信息
    前篇內容我們介紹了Python中關於文件的處理及磁碟文件讀寫機制(參見你了解文件緩存機制嗎?磁碟文件如何讀寫?Python中open函數詳解)。今天,我們來詳細了解一下使用Python如何獲取文件的詳細信息。
  • 全基因組複製基因分析軟體DupGen finder
    根據複製原因和結果,可以分為下面幾種情況:1.基因組複製加倍事件,即WGD,2.串聯重複,因為複製滑動等原因,3.臨近重複,同源交換滑動,或者串聯重複中又插入其他基因。4.轉座複製產生,5.基因組散布複製。區分這幾種情況對於我們分析物種演化,基因功能分化等都有重要的作用。小麥基因組計劃完成之後,大家把目光轉向了更多的小麥近緣物種和更重要的品種材料的測序。
  • ...基因組數據研究登《Nature》封面!進一步揭示基因組多樣性演化...
    研究團隊發表了363種鳥類基因組數據,同時通過這一數據建立了無參考序列下多基因組比對和分析的新方法,並基於這一新方法闡明高密度物種取樣對生物多樣性研究的重要性,為深入了解基因組多樣性演化奧秘提供了契機。
  • filecoin獲取方式廠家創新服務_紅岸天驅
    filecoin獲取方式廠家創新服務, 都是我們的貨源,我們通過一定的選品方法,批量的持續的在淘寶店鋪上傳寶貝,靠淘寶對上新品的流量扶持來獲取流量,不需要通過大量的刷單或者開直通車等燒錢方式來獲取訂單。因為沒有使用付費推廣方式,絕大多數店群從業人員也非專業淘寶運營出身,所以單店單月的利潤是有天花板的,3000到8000左右均是正常範圍。
  • 科研人員獲得首個染色體級別的橡膠樹參考基因組圖譜
    圖為橡膠樹基因組圖譜及其特徵。 中科院昆明植物研究所供圖橡膠樹是大戟科植物,原產南美洲巴西的亞馬遜河流域,歷史記載其馴化始於1896年,然後向馬來西亞、印度尼西亞和泰國等國家傳播。在植物界大約2500種產膠植物中,橡膠樹產生的以聚異戊二烯為主要功能成分的天然膠乳,約佔全球天然橡膠的98%以上。
  • 如何使用Shapeit2對人類基因組數據進行Phasing
    它目前的最新版是Shapeit3,但是常用的還是Shapeit2,也是在千人基因組項目中主要應用的版本。而Shapeit3主要是針對超大規模人群,一般是量級在幾萬人規模的基因組會更加合適,都是牛津大學的團隊開發的,這個版本3可以說是為他們國家的GenomicsEngland計劃定製的,這是一個要測10萬英國人基因組的大型項目——也是目前世界上推得最快的國家級基因組計劃。