关于genecode的ID提取

我看了下genecode的网站,最新的现在是v28了,老师给的的是v22,现在文章用的也都不一样,不懂这些差距对于后续分析的影响大吗。

然后我用R提取了v28的ensemble ID ,gene symbol 和biotyoe。

lncRNA是没问题的,都能正常与老师提供的对应上

对于mRNA的信息有点出入,不知道如何择选的,因为genecode上面没有单独mRNA这个数据包

也根据视频下载的是核染色体的基因注释,这就使得非编码和编码的都包含了,这个从我打开文本也可以看出是这样的。

然后我想获取编码RNA,我之前没仔细下拉过老师给的那个文本,以为只有protein_codingattachments-2018-09-R6Wwrxnc5b9e4172e3513.jpg

今天突然想整下发现。。不太对劲。多了其他一些奇怪的东西。

我主要想知道attachments-2018-09-fEGtsNye5b9e41bb4a21d.jpg

这么多的biotype里面是不是只要选择老师提供的那个gene_info.txt里面那些个类型。

麻烦老师讲下,能补充下知识那最好了

请先 登录 后评论

1 个回答

microRNA

我在TCGA课程的《lncRNA 表达量提取》 章节 介绍了一下如何区分和提取lncRNA

1. GDC 采用的GTF 是 V22 的,所以我们只能选择V22版本,不然ID可能对不上。

2. lncRNA 和 gene 是基于Ensembl 上的biotype 进行的区分。

请先 登录 后评论
  • 1 关注
  • 0 收藏,6138 浏览
  • belive 提出于 2018-09-16 19:44

相似问题