通过GATK calling出来的SNP如果使用UnifiedGenotype获得的SNP文件是分sample的,但是如果使用vcftools或者ANGSD则需要Vcf文件是multi-sample的,这里就需要我们将不同samples的文件进行合并,可以通过vcftools的perl模块进行,但是这种方式对perl的要求较高,且操作比较复杂,这里我们选择使用Bcftools,操作简便。
分三步:
bgzip -c -f -@ 10 merge.vcf > merge.vcf.gz -c, --stdout write on standard output, keep original files unchanged -f, --force overwrite files without asking -@, --threads INT number of compression threads to use [1]
2. 对生成的vcf.gz进行index:
bcftools index [options] <in.bcf>|<in.vcf.gz> -t, --tbi generate TBI-format index for VCF files
3.合并操作:
bcftools merge [options] <A.vcf.gz> <B.vcf.gz> [...] -m, --merge <string> allow multiallelic records for <snps|indels|both|all|none|id>, see man page for details [both] -o, --output <file> write output to a file [standard output] -O, --output-type <b|u|z|v> 'b' compressed BCF; 'u' uncompressed BCF; 'z' compressed VCF; 'v' uncompressed VCF [v] -l, --file-list <file> read file names from the file
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!