BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。
BUSCO是一款使用python语言编写的对转录组和基因组组装质量进行评估的软件。在相近的物种之间总有一些保守的序列,而BUSCO就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。
BUSCO 软件根据OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。将转录本拼接结果与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。
BUSCO官网:https://busco.ezlab.org/。
BUSCO软件需要依赖以下3种工具:
Augustus
HMMER
Blast+
BUSCO软件安装不难,没有安装的可参考官网安装说明,小编这里就不过多介绍了。
BUSCO软件有2种分析方法:auto-lineage 和 lineage_dataset。
auto-lineage:自动匹配进化分支
busco -m MODE -i INPUT -o OUTPUT --auto-lineage
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-prok
# or ignoring eukaryotes to save runtime, if compatible with your experimental goal.
busco -m MODE -i INPUT -o OUTPUT --auto-lineage-euk
# or ignoring non-eukaryotes to save runtime, if compatible with your experimental goal.
-i:基因组组装文件;
-o:输出目录;
--auto-lineage:自动匹配进化分支;
--auto-lineage-prok:自动匹配真核生物进化分支;
--auto-lineage-euk:自动匹配原核生物进化分支。
lineage_dataset:指定进化分支
busco -i AF04-12.fna --lineage_dataset ~/database/BUSCO/eukaryota_odb10 --out output -m genome --offline
-i:基因组组装文件;
--lineage_dataset:指定进化分支数据库路径;
--out:输出目录;
-m :BUSCO分析模式,基因组组装;
--offline:关闭BUSCO下载文件。
要指定进化分支数据库路径就需要提前下载数据库,MANAUAL中提供了lineage数据源,数据库链接:https://busco-data.ezlab.org/v5/data/。
V5最新版的数据库:
需要下载并解压。
wget -c https://busco-data.ezlab.org/v5/data/lineages/bacteria_odb10.2020-03-06.tar.gz
tar -zxvf bacteria_odb10.2020-03-06.tar.gz
输出目录下的short_summary*.txt 文件为BUSCO评估结果文件。
格式如下:
# BUSCO version is: 5.3.2
# The lineage dataset is: eukaryota_odb10 (Creation date: 2020-09-10, number of genomes: 70, number of BUSCOs: 255)
# Summarized benchmarking in BUSCO notation for file /share/nas5/wangq/project/genome_assembly/liuch/ann/2.assemble/scaffolds.fasta
# BUSCO was run in mode: genome
# Gene predictor used: metaeuk
***** Results: *****
C:93.3%[S:92.5%,D:0.8%],F:1.2%,M:5.5%,n:255
238 Complete BUSCOs (C)
236 Complete and single-copy BUSCOs (S)
2 Complete and duplicated BUSCOs (D)
3 Fragmented BUSCOs (F)
14 Missing BUSCOs (M)
255 Total BUSCO groups searched
Dependencies and versions:
hmmsearch: 3.3
metaeuk: aa7ac2eb7334405ad57d50d78361e3dcd61bb27a
好啦,今天就先讲到这了,有兴趣的赶快试一下吧!
此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘
6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!