根据覆盖度及比对率如何剔除样品、gatk VariantFiltration过滤

老师您好，我的基因组是1.37G的，目前我的298个重测序样本的数据平均覆盖度是7.76，平均比对率是96.21%，目前还有一些样本是平均覆盖度（18样本低于5X）和比对率（13低于85%、其中1个为68%）较低（见下图），想请教老师平均覆盖度和比对率多少适合做后续分析呢？

老师，我看之前的问答，gatk VariantFiltration做过滤会很慢，我的raw.vcf.gz文件有319G，我尝试了一下，18个小时了才得到1.1G的raw.gatk.vcf.gz文件

我的服务器是500G的，--java-options "-Xmx80g"可以再改大一点吗？我看别的问答下面说是内存不太能加快进程，只能一直等吗？我就是害怕等一个月也搞不定

此外，我还测了5个同属不同种的样品准备用于群体遗传的进化树的构建，这些样品的重测序数据要怎么处理吗？

默认排序时间排序

2 个回答

omicsgene - 生物信息 2025-01-13 11:30

擅长：重测序,遗传进化,转录组,GWAS

数据分析具有探索性，没有绝对的最好的过滤参数，不同的项目数据特点和分析目的都会有不同的过滤参数；

这个需要自己去摸索，或者参考文献，设置合理的参数得到质量和数量合适的SNP数量；

一般建议：最低 4X，缺失率 0.7 ，深度低的样本建议可以去除；

其他种的样本建议放在一起CALL SNP，构建进化树；后续做GWAS时可以删除其他种的样本；

GATK是的比较慢，内存多尽量多给吧；

Evening 2025-01-13 12:00

好的老师，我根据您的回答又去百度了一下，直接删除覆盖度低、比对率的样本过于粗暴，它们或许含有很重要的变异位点，-在vcftools中设置-max-missing 0.7 --minDP 4参数删除下低质量变异位点就行，谢谢您啦