数据分析具有探索性,没有绝对的最好的过滤参数,不同的项目数据特点和分析目的都会有不同的过滤参数;
这个需要自己去摸索,或者参考文献,设置合理的参数得到 质量和数量合适的SNP数量;
一般建议: 最低 4X,缺失率 0.7 ,深度低的样本建议可以去除;
其他种的样本建议放在一起CALL SNP,构建进化树;后续做GWAS时可以删除 其他种的样本;
GATK是的比较慢,内存多尽量多给吧;
老师您好,我的基因组是1.37G的,目前我的298个重测序样本的数据平均覆盖度是7.76,平均比对率是96.21%,目前还有一些样本是平均覆盖度(18样本低于5X)和比对率(13低于85%、其中1个为68%)较低(见下图),想请教老师平均覆盖度和比对率多少适合做后续分析呢?
老师,我看之前的问答,gatk VariantFiltration做过滤会很慢,我的raw.vcf.gz文件有319G,我尝试了一下,18个小时了才得到1.1G的raw.gatk.vcf.gz文件
我的服务器是500G的,--java-options "-Xmx80g"可以再改大一点吗?我看别的问答下面说是内存不太能加快进程,只能一直等吗?我就是害怕等一个月也搞不定
此外,我还测了5个同属不同种的样品准备用于群体遗传的进化树的构建,这些样品的重测序数据要怎么处理吗?