基因组组装质量评估

大量基因组的公布为科研工作者提供了更多资源,组装指标的好坏直接影响着整个基因组的质量,而常用的N50指标并不能全方位展示整个基因组的质量,那么如何才能检验一个基因组组装结果的可靠性呢?

大量基因组的公布为科研工作者提供了更多资源,组装指标的好坏直接影响着整个基因组的质量,而常用的N50指标并不能全方位展示整个基因组的质量,那么如何才能检验一个基因组组装结果的可靠性呢?

1. 序列一致性评估

基因组由reads组装得到。那么将reads比到基因组上,验证reads对基因组的覆盖情况,也可以用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。

2. 序列完整性评估

评估组装得到的基因组对基因区的覆盖程度。一般需要借助RNA方面的证据进行评估,如EST数据或RNA reads。由于用来评估的RNA方面证据不同,得到的比例也会有差别。一般来说,50%的scaffold覆盖基因的95%以上,85%的scaffold覆盖基因的90%以上,认为组装较完整。

3. 准确性评估

全长BAC序列,与组装结果的比对一致性较好,则认为组装质量较高

4. 保守基因评估

根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene库),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性。可以通过该物种和同源物种cegma的比例,判断保守基因组装情况。

BUSCO也是这个原理,通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。

  • 发表于 2023-10-11 11:06
  • 阅读 ( 1760 )
  • 分类:基因组学

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Ti Amo
Ti Amo

48 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章