测序数据质控报告GC分布

老师好,请问昆虫重测序数据某些样品比对率较低,怀疑是肠道内容物污染DNA,但是样品的QC报告中(统计reads的平均GC含量的分布)为什么是单峰?一般文库污染是双峰或者多个峰。。。然后将未比对的数据去blastNT数据库除了一些肠道共生菌之外,有百分之20多显示unknown。不太理解unknown的部分是什么呢?并且map结果统计文件中可以看见每条染色体的深度和覆盖度,但是除了物种本身的十几条染色体外,最后出现了5.8S核糖体RNA和U1剪切RNA(pseado),这是为啥呢?是因为测序建库的DNA中有RNA污染吗?谢谢

请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

数据量够的话,可以不用处理,污染的序列比对不上参考基因组,对结果影响不大;

主要是污染数据,数据量相对减少了;如果比对之后平均深度能达到分析要求就可以了

请先 登录 后评论
  • 1 关注
  • 0 收藏,959 浏览
  • shidandan 提出于 2023-10-10 19:47

相似问题