gbff 格式注释文件转换成gff3注释文件格式

gbff 格式注释文件转换成gff3注释文件格式

在NCBI下载参考基因组,没有找到gff格式的基因组注释文件,只找到了gbff 。应该会有现成的工具来实现常用的基因组注释文件不同格式之间的相互转换。就简单的进行了gb→gff 之间的相互转换。

方法有很多,我只测试了2种:

方法 1:

脚本如下:这个脚本实在太多行了,2300多行,大家直接进网站自行复制吧!

https://github.com/bioperl/bioperl-live/blob/master/bin/bp_genbank2gff3

attachments-2023-04-HS2U6qnb642e92df23b50.png

#将复制的代码贴到以 .pl 结尾的空白文件当中
vi bp_genbank2gff3.pl #将脚本粘过来并保存
#赋予执行权限
chmod u+x bp_genbank2gff3.pl
# 运行下面命令
perl bp_genbank2gff3.pl  file
.gbff

 

方法 1:

使用GFF_tools
http://biowiki.org/wiki/index.php/Gff_Tools
点解上方找到链接,进入后,找到Genbank to GFF 进入。如下图:

attachments-2023-04-bApbfc5z642e93617717e.png

#将复制的代码贴到以 .pl 结尾的空白文件当中
vi gbff2gff.pl
# 运行下面命令
perl gbff2gff.pl  file.gbff


根据两个脚本都能得到gff文件,输出结果经检查,我的结果的差别是在表头有无注释行存在差别。但注释行对于整个结果的影响较小,(第二种方法少了开头的鸡几行注释)。

如果你在使用之后,可以用linux中的diff命令进行验证。

#Linux diff 命令用于比较文件的差异。
diff 以逐行的方式,比较文本文件的异同处。如果指定要比较目录,则 diff 会比较目录中相同文件名的文件,但不会比较其中子目录。
#  diff [-abBcdefHilnNpPqrstTuvwy][-<行数>][-C <行数>][-D <巨集名称>][-I <字符或字符串>][-S <文件>][-W <宽度>][-x <文件或目录>][-X <文件>][--help][--left-column][--suppress-common-line][文件或目录1][文件或目录2]

#参数 -q--brief 仅显示有无差异,不显示详细的信息。-y--side-by-side 以并列的方式显示文件的异同之处。-W<宽度>或--width<宽度>  在使用-y参数时,指定栏宽

diff method1.gbff.gff method2.gbff.gff  -q -y -W 50 > diff.txt
  • 发表于 2023-04-06 18:08
  • 阅读 ( 8397 )
  • 分类:linux

0 条评论

请先 登录 后评论
生信阿姨
生信阿姨

31 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章