GFF与GTF格式转换

GFF与GTF格式转换

我们在做生物分析的时候,经常会碰到GFF格式的文件以及GTF格式的注释文件。他们有着相似的名字,甚至连内容都极为相似~那么,他们如何转换呢?

GFF主要是用来注释基因组,格式如下

J15     glean   gene    25308430        25309140        .       +       .       ID=Gglean067903; status=novel;
J15     glean   mRNA    25308430        25309140        0.976879        +       .       ID=Gglean067903-TA; Parent=Gglean067903; status=novel;
J15     glean   CDS     25308430        25308501        .       +       0       Parent=Gglean067903-TA;
J15     glean   CDS     25308646        25309140        .       +       0       Parent=Gglean067903-TA;
J15     glean   gene    126763  129003  .       +       .       ID=Gglean075841; status=novel;
J15     glean   mRNA    126763  129003  1       +       .       ID=Gglean075841-TA; Parent=Gglean075841; status=novel;
J15     glean   CDS     126763  126973  .       +       0       Parent=Gglean075841-TA;
J15     glean   CDS     127285  127628  .       +       2       Parent=Gglean075841-TA;
J15     glean   CDS     127719  127854  .       +       0       Parent=Gglean075841-TA;
J15     glean   CDS     128049  128185  .       +       2       Parent=Gglean075841-TA;
而GTF主要是用来对基因进行注释,格式如下
J01     glean   CDS     6976    7317    .       +       0       transcript_id "Gglean025939-TA"; gene_id "Gglean025939";
J01     glean   CDS     7912    8162    .       +       0       transcript_id "Gglean025939-TA"; gene_id "Gglean025939";
J01     glean   CDS     8245    8413    .       +       1       transcript_id "Gglean025939-TA"; gene_id "Gglean025939";
J01     glean   CDS     8479    8790    .       +       0       transcript_id "Gglean025939-TA"; gene_id "Gglean025939";
J01     glean   CDS     9444    9708    .       -       2       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";
J01     glean   CDS     9778    9935    .       -       0       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";
J01     glean   CDS     10012   10216   .       -       2       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";
J01     glean   CDS     10299   10754   .       -       2       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";
J01     glean   CDS     10838   10926   .       -       0       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";
J01     glean   CDS     11015   11082   .       -       1       transcript_id "Gglean025954-TA"; gene_id "Gglean025954";

转换:
Cufflinks里面的工具gffread可以直接实现GFF与GTF的互相转换。
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3


  • 发表于 2018-08-10 11:53
  • 阅读 ( 9835 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
安生水
安生水

351 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章