SNP 过滤标准保证数据质量及参考文献:

最近有审稿人问我们的SNP过滤标准的合理解释,这里总结一下相关的参考文献和标准的出处
最近有审稿人问我们的SNP过滤标准的合理解释,这里总结一下相关的参考文献和标准的出处;
1.深度过滤depth:

    测序量低建议最低4X,测序量大建议10X以上保证质量;最高深度不要超过1000X

    例如:1)猪这篇文章报道,深度低于4XSNP错误率大幅上升:https://link.springer.com/article/10.1186/s12859-019-3164-z

                2) 超高深度的SNP位点可能位于基因组重复区,建议删除:https://www.nature.com/articles/nbt.2053

2. MAF过滤,即过滤稀有SNP,有报道稀有SNP大多由于测序错误导致,过滤标准建议0.05 或者0.01 ,这和你的样本数量有关,样本数量多建议0.01: https://onlinelibrary.wiley.com/doi/abs/10.1111/1755-0998.12995

    

3. SNP cluster 和indel附近的SNP过滤掉,因为这些类型的SNP错误率很高:https://www.nature.com/articles/nbt.2053


4.如果你使用GATK 方法call SNP,人类的过滤可以使用VQSR方法过滤,非人类可以使用官方推荐的hard-filtering:

https://gatk.broadinstitute.org/hc/en-us/articles/360035532412-Can-t-use-VQSR-on-non-model-organism-or-small-dataset


attachments-2024-04-GwkfeIDa6618fbbc1b104.png

GATK过滤命令行:

https://gatk.broadinstitute.org/hc/en-us/articles/360035531112--How-to-Filter-variants-either-with-VQSR-or-by-hard-filtering

SNP

gatk VariantFiltration \
    -V snps.vcf.gz \
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "SOR > 3.0" --filter-name "SOR3" \
    -filter "FS > 60.0" --filter-name "FS60" \
    -filter "MQ < 40.0" --filter-name "MQ40" \
    -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
    -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
    -O snps_filtered.vcf.gz


INDEL

gatk VariantFiltration \ 
    -V indels.vcf.gz \ 
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "FS > 200.0" --filter-name "FS200" \
    -filter "ReadPosRankSum < -20.0" --filter-name "ReadPosRankSum-20" \ 
    -O indels_filtered.vcf.gz


如果想自己过滤,这里有视频课程操作过程课程:https://bdtcd.xetslk.com/s/1VQOjQ

  • 发表于 2024-04-12 16:59
  • 阅读 ( 1353 )
  • 分类:重测序

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

698 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章