再跑GATK的时候遇到这样一个问题:
运行命令:
/share/work/biosoft/java/jre1.8.0_73/bin/java -XX:ParallelGCThreads=5 -Xmx50g -Djava.io.tmpdir=SNP_Analysis/tmp -jar /share/work/biosoft/GATK/3.6/GenomeAnalysisTK.jar -T SplitNCigarReads -R Donkey_Hic_genome.20180408.fa -I 9.SNP_Analysis/donkey1.bam.dedupped.bam -o 9.SNP_Analysis/donkey1.bam.split.bam -rf ReassignOneMappingQuality -RMQF 255 -RMQT 60 -U ALLOW_N_CIGAR_READS --fix_misencoded_quality_scores
报错信息:
ERROR MESSAGE: Bad input:We encountered a non-standard non-IUPAC base in the provided reference: '10',
检查了输入文件也没有发现问题在哪,一直没有找到原因。后来在网上查了一下了问题可能是参考基因组序列文件编码格式有问题。然后我试着改了一下:
在linux上用cat命令输出参考基因组序列文件,并重定向到新的文件。
cat Donkey_Hic_genome.20180408.fa > Donkey_Hic_genome.20180408.fa.bak
mv Donkey_Hic_genome.20180408.fa.bak Donkey_Hic_genome.20180408.fa
新的文件覆盖原文件后,用samtools重新建索引文件:
samtools faidx Donkey_Hic_genome.20180408.fa
最后重新运行一开始的命令,没有再出现报错,问题就这样解决了。
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!