由于GATK4的 GenotypeGVCFs 没了设置多线程的参数,直接使用来转换格式的话会非常慢,为了提高效率,可以拆分染色体分别转换为vcf格式,之后使用MergeVcfs 合并所有染色体,命令如下:
#多条染色体并行运行
gatk GenotypeGVCFs -L Chr01 -R genome.final.fa -O Chr01.raw.vcf.gz -V gendb://db
#由于上一步使用了 GenomicsDBImport 合并GVCF,故-V参数使用了gendb://db;-L参数可以直接指定染色体名称,也可以是包含染色体列表的文件
#对vcf进行合并
ls *.raw.vcf.gz > all_genotype.list
gatk MergeVcfs -I all_genotype.list -O raw.vcf.gz
这样处理可以极大加快GenotypeGVCFs 的速度。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!