GFF3格式说明

GFF3格式说明

GFF3每一行代表一个序列元件(以#为开头的注释行除外),每一行有且只有9列(也就是每个序列元件有9个属性),列与列只能必须使用tab键来分割,如果某个序列元件的某个属性为空那么必须使用“.”来代替,格式如下:


2L      FlyBase transcript      7529    9484    .       +       .       ID=FBtr0300690;Parent=FBgn0031208;Name=CG11023-RC;biotype=protein_coding;transcript_id=FBtr0300690
2L      FlyBase five_prime_UTR  7529    7679    .       +       .       Parent=FBtr0300690
2L      FlyBase exon    7529    8116    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-1;constitutive=1;ensembl_end_phase=2;ensembl_phase=-1;exon_id=FBtr0300690-E1;rank=1
2L      FlyBase CDS     7680    8116    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase exon    8193    8589    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-2;constitutive=0;ensembl_end_phase=0;ensembl_phase=2;exon_id=FBtr0300690-E2;rank=2
2L      FlyBase CDS     8193    8589    .       +       1       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase CDS     8668    9276    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914


这9列从左到右分别是:

1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源(数据库名称或者项目名称)
3. type - 序列元件的类型,例如:mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置,从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置,从1开始计数
6. score - 该序列元件的打分,一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链,反之亦反
8. phase - 可以为“0”、“1”、“2”,“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑,“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基,依次类推。
9. attributes - 该序列元件的一些其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于序列元件是很复杂的,一个序列元件(例如:exon)可能属于另外一个序列元件(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome

GFF3格式的详细介绍,可以去GMOD wiki官网查看。


此外,我们在网易云课堂上有各种教学视频,有兴趣可以了解一下:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘

5. 微生物16S/ITS/18S分析原理及结果解读

6. 更多学习内容:linux、perl、R语言画图,更多免费课程请点击以下链接:

https://study.omicsclass.com/

  • 发表于 2018-07-20 12:01
  • 阅读 ( 10530 )
  • 分类:其他

0 条评论

请先 登录 后评论
安生水
安生水

350 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章