GFF3格式说明

GFF3每一行代表一个序列元件（以#为开头的注释行除外），每一行有且只有9列（也就是每个序列元件有9个属性），列与列只能必须使用tab键来分割，如果某个序列元件的某个属性为空那么必须使用“.”来代替，格式如下：

2L      FlyBase transcript      7529    9484    .       +       .       ID=FBtr0300690;Parent=FBgn0031208;Name=CG11023-RC;biotype=protein_coding;transcript_id=FBtr0300690
2L      FlyBase five_prime_UTR  7529    7679    .       +       .       Parent=FBtr0300690
2L      FlyBase exon    7529    8116    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-1;constitutive=1;ensembl_end_phase=2;ensembl_phase=-1;exon_id=FBtr0300690-E1;rank=1
2L      FlyBase CDS     7680    8116    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase exon    8193    8589    .       +       .       Parent=FBtr0300690;Name=FBtr0300690-2;constitutive=0;ensembl_end_phase=0;ensembl_phase=2;exon_id=FBtr0300690-E2;rank=2
2L      FlyBase CDS     8193    8589    .       +       1       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
2L      FlyBase CDS     8668    9276    .       +       0       ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914

这9列从左到右分别是：

1. seqid - scaffold或者chromosome的名称说明
2. source - 产生一个序列元件的软件的名称或者数据源（数据库名称或者项目名称）
3. type - 序列元件的类型，例如：mRNA、CDS等等
4. start - 序列元件在scaffold或者chromosome上的起始位置，从1开始计数
5. end - 序列元件在scaffold或者chromosome上面的终止位置，从1开始计数
6. score - 该序列元件的打分，一般为该序列元件做比对时的E-value和ab initio gene prediction features时的P-value
7. strand - “+”代表该序列元件在scaffold或者chromosome的正链，反之亦反
8. phase - 可以为“0”、“1”、“2”，“0”代表该序列元件的第一个碱基为第一个密码子的第一个剪辑，“1”代表该序列元件的第二个碱基是第一个密码子 的第一个碱基，依次类推。
9. attributes - 该序列元件的一些其他属性，可以有多个每个属性之间必须以“;”分割，例如“ID=some-id;Name=some-name;Parent=some-parent”，请注意这个Parent属性，由于序列元件是很复杂的，一个序列元件（例如：exon）可能属于另外一个序列元件（例如：gene），这个Parent属性的意思就是该序列元件在哪个序列元件上面，如果一个序列元件没有Parent属性，说明他的父元件就是scaffold或者chromosome

GFF3格式的详细介绍，可以去GMOD wiki官网查看。

此外，我们在网易云课堂上有各种教学视频，有兴趣可以了解一下：

1. 文章越来越难发？是你没发现新思路，基因家族分析发2-4分文章简单快速，学习链接：基因家族分析实操课程

2. 转录组数据理解不深入？图表看不懂？点击链接学习深入解读数据结果文件，学习链接：转录组（有参）结果解读；转录组（无参）结果解读

3. 转录组数据深入挖掘技能-WGCNA，提升你的文章档次，学习链接：WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘？学习链接：转录组标准分析后的数据挖掘

5. 微生物16S/ITS/18S分析原理及结果解读

6. 更多学习内容：linux、perl、R语言画图，更多免费课程请点击以下链接：

https://study.omicsclass.com/

发表于 2018-07-20 12:01
阅读 ( 11196 )
分类：其他

GFF3格式说明

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »