老师好,请问昆虫重测序数据某些样品比对率较低,怀疑是肠道内容物污染DNA,但是样品的QC报告中(统计reads的平均GC含量的分布)为什么是单峰?一般文库污染是双峰或者多个峰。。。然后将未比对的数据去blastNT数据库除了一些肠道共生菌之外,有百分之20多显示unknown。不太理解unknown的部分是什么呢?并且map结果统计文件中可以看见每条染色体的深度和覆盖度,但是除了物种本身的十几条染色体外,最后出现了5.8S核糖体RNA和U1剪切RNA(pseado),这是为啥呢?是因为测序建库的DNA中有RNA污染吗?谢谢
数据量够的话,可以不用处理,污染的序列比对不上参考基因组,对结果影响不大;
主要是污染数据,数据量相对减少了;如果比对之后平均深度能达到分析要求就可以了
如果觉得我的回答对您有用,请随意打赏。你的支持将鼓励我继续创作!