15 GATK 建立压缩的VCF文件索引报错 IndexFeatureFile

/share/work/biosoft/GATK/gatk-4.1.4.1/gatk IndexFeatureFile -I raw.vcf.gz

 Error was: htsjdk.tribble.TribbleException.MalformedFeatureFile: Input file is not in valid block compressed format.,

请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

由于SNP位点数量巨大,对应VCF文件也非常的大,为节省存储空间,最常见的做法就是压缩。bgzip 可以压缩VCF文件,用法如下

bgzip  raw.vcf

压缩之后,原本的raw.vcf文件就变成了raw.vcf.gz文件。压缩后缀为.gz, 如果想要解压缩,有以下两种用法

bgzip -d raw.vcf.gz
gunzip raw.vcf.gz

bgzip的压缩算法和gzip压缩算法有着相似之处,所以对于bgzip压缩的文件,解压缩时除了可以使用bgzip软件本身,还可以使用gunzip进行解压缩。


需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。 

那么gzip压缩的vcf文件就会造成以上错误,导致GATK不识别。  bgzip 如果系统中安装了samtools就会有附带安装,不需要额外安装。

解决以上错误建议解压之后重新用bgzip压缩。





请先 登录 后评论