大量基因组的公布为科研工作者提供了更多资源,组装指标的好坏直接影响着整个基因组的质量,而常用的N50指标并不能全方位展示整个基因组的质量,那么如何才能检验一个基因组组装结果的可靠性呢?
基因组由reads组装得到。那么将reads比到基因组上,验证reads对基因组的覆盖情况,也可以用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。
评估组装得到的基因组对基因区的覆盖程度。一般需要借助RNA方面的证据进行评估,如EST数据或RNA reads。由于用来评估的RNA方面证据不同,得到的比例也会有差别。一般来说,50%的scaffold覆盖基因的95%以上,85%的scaffold覆盖基因的90%以上,认为组装较完整。
全长BAC序列,与组装结果的比对一致性较好,则认为组装质量较高
根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene库),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性。可以通过该物种和同源物种cegma的比例,判断保守基因组装情况。
BUSCO也是这个原理,通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!