在NCBI下载参考基因组,没有找到gff格式的基因组注释文件,只找到了gbff 。应该会有现成的工具来实现常用的基因组注释文件不同格式之间的相互转换。就简单的进行了gb→gff 之间的相互转换。
方法有很多,我只测试了2种:
脚本如下:这个脚本实在太多行了,2300多行,大家直接进网站自行复制吧!
https://github.com/bioperl/bioperl-live/blob/master/bin/bp_genbank2gff3
#将复制的代码贴到以 .pl 结尾的空白文件当中
vi bp_genbank2gff3.pl #将脚本粘过来并保存
#赋予执行权限
chmod u+x bp_genbank2gff3.pl
# 运行下面命令
perl bp_genbank2gff3.pl file .gbff
使用GFF_tools
http://biowiki.org/wiki/index.php/Gff_Tools
点解上方找到链接,进入后,找到Genbank to GFF 进入。如下图:
#将复制的代码贴到以 .pl 结尾的空白文件当中
vi gbff2gff.pl
# 运行下面命令
perl gbff2gff.pl file.gbff
根据两个脚本都能得到gff文件,输出结果经检查,我的结果的差别是在表头有无注释行存在差别。但注释行对于整个结果的影响较小,(第二种方法少了开头的鸡几行注释)。
如果你在使用之后,可以用linux中的diff命令进行验证。
#Linux diff 命令用于比较文件的差异。
diff 以逐行的方式,比较文本文件的异同处。如果指定要比较目录,则 diff 会比较目录中相同文件名的文件,但不会比较其中子目录。
# diff [-abBcdefHilnNpPqrstTuvwy][-<行数>][-C <行数>][-D <巨集名称>][-I <字符或字符串>][-S <文件>][-W <宽度>][-x <文件或目录>][-X <文件>][--help][--left-column][--suppress-common-line][文件或目录1][文件或目录2]
#参数 -q或--brief 仅显示有无差异,不显示详细的信息。-y或--side-by-side 以并列的方式显示文件的异同之处。-W<宽度>或--width<宽度> 在使用-y参数时,指定栏宽
diff method1.gbff.gff method2.gbff.gff -q -y -W 50 > diff.txt
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!