BUSCO评估基因组组装和完整性详解

BUSCO评估基因组组装和完整性详解

BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。

BUSCO软件介绍

BUSCO是一款使用python语言编写的对转录组和基因组组装质量进行评估的软件。在相近的物种之间总有一些保守的序列,而BUSCO就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。

BUSCO 软件根据OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。将转录本拼接结果与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。

下载与安装

BUSCO官网:https://busco.ezlab.org/。

BUSCO软件需要依赖以下3种工具:

  • Augustus

  • HMMER

  • Blast+

BUSCO软件安装不难,没有安装的可参考官网安装说明,小编这里就不过多介绍了。

软件使用

BUSCO软件有2种分析方法:auto-lineage 和 lineage_dataset。

auto-lineage:自动匹配进化分支

busco -m MODE -i INPUT -o OUTPUT --auto-lineage
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-prok
or ignoring eukaryotes to save runtime, if compatible with your experimental goal.
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-euk
or ignoring non-eukaryotes to save runtime, if compatible with your experimental goal.

 -i:基因组组装文件;

-o:输出目录;

--auto-lineage:自动匹配进化分支;

--auto-lineage-prok:自动匹配真核生物进化分支;

--auto-lineage-euk:自动匹配原核生物进化分支。

lineage_dataset:指定进化分支

busco -i AF04-12.fna --lineage_dataset ~/database/BUSCO/eukaryota_odb10 --out output -m genome --offline

 -i:基因组组装文件;

--lineage_dataset:指定进化分支数据库路径;

--out:输出目录;

-m :BUSCO分析模式,基因组组装;

--offline:关闭BUSCO下载文件。

要指定进化分支数据库路径就需要提前下载数据库,MANAUAL中提供了lineage数据源,数据库链接:https://busco-data.ezlab.org/v5/data/。

attachments-2022-09-606Dl1lS631ad713b7de3.png

V5最新版的数据库:

attachments-2022-09-dLTJxjbO631ad72c71f26.png

需要下载并解压。

wget -c https://busco-data.ezlab.org/v5/data/lineages/bacteria_odb10.2020-03-06.tar.gz
tar -zxvf bacteria_odb10.2020-03-06.tar.gz


结果解读

输出目录下的short_summary*.txt 文件为BUSCO评估结果文件。


格式如下:

# BUSCO version is5.3.2
# The lineage dataset is: eukaryota_odb10 (Creation date: 2020-09-10, number of genomes: 70, number of BUSCOs: 255)
# Summarized benchmarking in BUSCO notation for file /share/nas5/wangq/project/genome_assembly/liuch/ann/2.assemble/scaffolds.fasta
# BUSCO was run in mode: genome
# Gene predictor used: metaeuk

        ***** Results: *****

        C:93.3%[S:92.5%,D:0.8%],F:1.2%,M:5.5%,n:255
        238     Complete BUSCOs (C)
        236     Complete and single-copy BUSCOs (S)
        2       Complete and duplicated BUSCOs (D)
        3       Fragmented BUSCOs (F)
        14      Missing BUSCOs (M)
        255     Total BUSCO groups searched

Dependencies and versions:
        hmmsearch: 3.3
        metaeuk: aa7ac2eb7334405ad57d50d78361e3dcd61bb27a

attachments-2022-09-9ZaqcsgM631ad74334423.png


好啦,今天就先讲到这了,有兴趣的赶快试一下吧!


此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘

5. 微生物16S/ITS/18S分析原理及结果解读

6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:

https://study.omicsclass.com/



  • 发表于 2022-09-09 14:01
  • 阅读 ( 5942 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
安生水
安生水

350 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章