根据覆盖度及比对率如何剔除样品、gatk VariantFiltration过滤

老师您好,我的基因组是1.37G的,目前我的298个重测序样本的数据平均覆盖度是7.76,平均比对率是96.21%,目前还有一些样本是平均覆盖度(18样本低于5X)和比对率(13低于85%、其中1个为68%)较低(见下图),想请教老师平均覆盖度和比对率多少适合做后续分析呢?

老师,我看之前的问答,gatk VariantFiltration做过滤会很慢,我的raw.vcf.gz文件有319G,我尝试了一下,18个小时了才得到1.1G的raw.gatk.vcf.gz文件

我的服务器是500G的,--java-options "-Xmx80g"可以再改大一点吗?我看别的问答下面说是内存不太能加快进程,只能一直等吗?我就是害怕等一个月也搞不定

此外,我还测了5个同属不同种的样品准备用于群体遗传的进化树的构建,这些样品的重测序数据要怎么处理吗?

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

数据分析具有探索性,没有绝对的最好的过滤参数,不同的项目数据特点和分析目的都会有不同的过滤参数;

这个需要自己去摸索,或者参考文献,设置合理的参数得到 质量和数量合适的SNP数量;


一般建议: 最低 4X,缺失率 0.7 ,深度低的样本建议可以去除;


其他种的样本建议放在一起CALL SNP,构建进化树;后续做GWAS时可以删除 其他种的样本;


GATK是的比较慢,内存多尽量多给吧;


请先 登录 后评论
Evening

好的老师,我根据您的回答又去百度了一下,直接删除覆盖度低、比对率的样本过于粗暴,它们或许含有很重要的变异位点,-在vcftools中设置-max-missing 0.7 --minDP 4参数删除下低质量变异位点就行,谢谢您啦

请先 登录 后评论
  • 2 关注
  • 0 收藏,125 浏览
  • Evening 提出于 4天前

相似问题