我从本网站搜索相似的问题,但没搜索到,不知道各位同道遇到相同的问题没有?
老师您好!我在分析鸡的基因家族的时候,发现鸡的基因ID、mRNA ID与蛋白ID之间都是没规律的。蛋白ID、基因ID、mTNA ID前面几个字母分别以P、G、T结尾,这个很容易解决。但后面的11位数字编码却毫无规律可谈,蛋白fa文件中,蛋白ID后面有“gene:”、“transcript:”的对应关系注释(图1)。cds的fa文件mRNA ID后也有gene的ID注释(图2)。gff文件中也可以看到,gene ID与mRNA ID不一致。所以这样就造成后续分析比较困难,比如分析到“去除重复的hmmer搜索的转录本ID”这一步就难进行下去。所以,请问老师,遇到这种问题怎么解决?
另外,我发现鸭的基因组也存在同样的问题。
图1 蛋白fa文件,蛋白ID后有geneID、mRNAID注释,但编码无规律。
图2 cds fa文件
图3 gff文件
没有规律也可以分析的,可以使用 geneID2mRNA.pl 脚本找到ID之间的对应关系; 然后一个基因挑一个转录本作为代表序列;https://www.omicsclass.com/article/2032
如果觉得我的回答对您有用,请随意打赏。你的支持将鼓励我继续创作!