duplicate_gene_classifier属于MCScanX的核心程序,用于基因分类,统计全基因组不同类型复制事件的数目。
命令行格式:
$duplicate_gene_classifier Dl
Dl是物种缩写,是Dl.blast文件。在运...
duplicate_gene_classifier属于MCScanX的核心程序,用于基因分类,统计全基因组不同类型复制事件的数目。
命令行格式:
$duplicate_gene_classifier Dl
Dl是物种缩写。在运行duplicate_gene_classifier程序时需要去掉文件后缀名。
准备原始文件1:Dl.blast文件;是全基因组蛋白质序列比对结果,如下图。
Dl.blast是BLAST比对结果,具体格式如下:
2:Dl.gff文件;是全基因组基因ID对应转录本的位置信息,如下图。染色体\t基因\t起始位点\t终止位点
命令运行屏幕会输出每种基因类型对应的数量,同时在当前目录下会生成一个.gene_type的文件,里面记录了每一个基因对应的重复类型:
在.gene_type结果文件中,第一列是基因组基因,第二列为重复基因的类型:
0:singleton(非重复基因);
1:dispersed(不属于2,3,4的其它重复);
2:proximal(染色体附近的重复,但是不相邻);
3:tandem(串联重复);
4:WED/segmental(在共线性区域的共线性基因)。
参看文章:
https://mp.weixin.qq.com/s?src=11×tamp=1668576767&ver=4169&signature=Q*f2eca6oTMyIc8kWjNArdYtNPYK9K46Ylc8TcRnQU-wNZEaNQ9cvlRBs9Slzt-UFBYelXg7k-dgRYclZ5XP6tiWoi7-Hd6XrmIgwkb2fF6dlZZFPs4RiisR1JLow9fj&new=1