用GATK call 变异的时候,分染色体还是很慢,能不能增加线程或别的改进的方法。

我用了如下命令:

for i in $(cat $workdir/data/data.txt) ; do

for Chr in Chr1 Chr2 Chr3 Chr4 Chr5 Chr6 Chr7 Chr8 Chr9 Chr10 Chr11 Chr12; do

  echo "gatk --java-options "-Xmx100g" HaplotypeCaller \

    -R $REF \

    -I $workdir/3.map/result/${i}.sorted.dedup.bam \

    -O ${i}.${Chr}.g.vcf.gz \

    --max-alternate-alleles 4 \

    --sample-ploidy 2 \

    -ERC GVCF \

    -L ${Chr} \

    --tmp-dir $tmpdir"

done

done > gvcf.sh

运行 gvcf.sh这个代码后,目前过了16小时,一个样本才只完成了5条染色体(一共12条染色体,一个样本大致是12G的数据量),还是太慢了,我有几百份的样本。老师看有别的方法吗?


请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

对的,样本多需要计算资源多,慢正常的。可以加大计算资源,多投任务;

我们也有代分析服务加快速度,可以联系客服了解:联系客服处理:点击联系客服

请先 登录 后评论
  • 1 关注
  • 0 收藏,143 浏览
  • 郭老师 提出于 6天前

相似问题