老师,问题比较复杂,麻烦您看一下详细的问题描述,小麦基因组

我查看了内存是没有问题的attachments-2024-10-4CVo56lI6717209c2674d.pngattachments-2024-10-IL5bDIRW671720a291ed4.png然后之前根据您提供的IndexFeatureFile,因为超出索引范围,也无法建立索引attachments-2024-10-Hea6GUOe671722302f3f8.pngattachments-2024-10-fE17PwEd6717224371b4f.png随后我尝试使用bcftools建立csi索引,成功了attachments-2024-10-IOto6arm67172288c19f5.png使用csi索引,运行代码,显示需要idx索引attachments-2024-10-K764ekPZ67172438cb019.pngattachments-2024-10-yBmAyKgB6717243f7e7f3.png但是我尝试了tabix,bcftools以及上面的IndexFeatureFile构建idx索引都因为超出索引范围失败了,我的样有141个,所以用的是生成gvcf文件,现在我应该怎么办啊

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS
超过500M的染色体,GATK 索引不支持压缩的gvcf,但是解压的可以;

解决办法

1.解压g.vcf.gz 

gunzip demo.g.vcf.gz

2. 解压后的vcf文件建立索引:

gatk --java-options "-Xmx50g"  IndexFeatureFile -I  demo.g.vcf
3.用解压后的g.vcf导入数据库
请先 登录 后评论
指南针先森

老师,您好,我想接着问一下就是那后续的分析中都用解压缩的进行吗?

请先 登录 后评论