利用bedtools统计VCF文件中各染色体不同区域中的变异数量

利用bedtools统计VCF文件中各染色体不同区域中的变异数量

1.获得基因组的各染色体的长度信息

$ samtools faidx genome.fa
#生成gemome.fa.fai文件第一列为染色体,第二列为对应染色体长度
chr01   44488843        7       44488843        44488844
chr02   38522657        44488858        38522657        38522658
chr03   34302425        83011523        34302425        34302426
chr04   31904921        117313956       31904921        31904922
chr05   31465669        149218885       31465669        31465670
chr06   29481096        180684562       29481096        29481097
chr07   26142479        210165666       26142479        26142480
chr08   23295356        236308153       23295356        23295357
chr09   21309744        259603517       21309744        21309745
chr10   20413421        280913269       20413421        20413422

2.根据染色体的长度产出区域文件:

$ bedtools makewindows -g genome.fa.fai -w 100000 >region.bed
$ head region.bed
chr01   0       100000
chr01   100000  200000
chr01   200000  300000
chr01   300000  400000
chr01   400000  500000

3.输入vcf文件统计不同区域里面变异个数

$ bedtools coverage -a region.bed -b q4.vcf  -counts >result.txt
  • 发表于 2020-06-30 13:55
  • 阅读 ( 5985 )
  • 分类:linux

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章