数据分析具有探索性,没有绝对的最好的过滤参数,不同的项目数据特点和分析目的都会有不同的过滤参数; 这个需要自己去摸索,或者参考文献,设置合理的参数得到 质量和数量合适的SNP数量; 一般建议: 最低 4X,缺失率 0.7 ,深度低的样本建议可以去除; 其他种的样本建议放在一起CALL SNP,构建进化树;后续做GWAS...
回答于 2025-01-13 11:30
对的内存目前只用用了 15G; 任务不一定一直用这么多内存和CPU,是动态变化的,你要观察每个任务从开始到结束整个过程内存和CPU使用峰值才行; 盲目的加任务,当任务都达到峰值就会让系统崩溃;
回答于 2025-01-09 14:11
linux基础不好建议学习学习linux基础课:https://bdtcd.xetlk.com/s/17gwqZ 下面的这个代码你运行一下,打印每个样本的任务,到 gatk.sh for i in $(cat $workdir/data/data.txt); do echo "gatk --java-options '-Xmx100g' HaplotypeCaller -R $REF \ -I $workdir/3.map/result/${i}.sorted.dedup.bam \ -O ${i...
回答于 2025-01-08 13:47
ParaFly 这个命令要求sh文件里面一行是一个任务,不必要的注释换行符变量等需要删掉; 建议吧命令用for循环结合echo打印出来,手动编辑命令的sh文件再批量运行: 可以学习学习Linux基础:https://www.omicsclass.com/article/1006 实在不会就所有的输入输出文件用绝对路径,手动编辑命令文件;
回答于 2025-01-08 10:44