我在TCGA课程的《lncRNA 表达量提取》 章节 介绍了一下如何区分和提取lncRNA
1. GDC 采用的GTF 是 V22 的,所以我们只能选择V22版本,不然ID可能对不上。
2. lncRNA 和 gene 是基于Ensembl 上的biotype 进行的区分。
我看了下genecode的网站,最新的现在是v28了,老师给的的是v22,现在文章用的也都不一样,不懂这些差距对于后续分析的影响大吗。
然后我用R提取了v28的ensemble ID ,gene symbol 和biotyoe。
lncRNA是没问题的,都能正常与老师提供的对应上
对于mRNA的信息有点出入,不知道如何择选的,因为genecode上面没有单独mRNA这个数据包
也根据视频下载的是核染色体的基因注释,这就使得非编码和编码的都包含了,这个从我打开文本也可以看出是这样的。
然后我想获取编码RNA,我之前没仔细下拉过老师给的那个文本,以为只有protein_coding
今天突然想整下发现。。不太对劲。多了其他一些奇怪的东西。
我主要想知道
这么多的biotype里面是不是只要选择老师提供的那个gene_info.txt里面那些个类型。
麻烦老师讲下,能补充下知识那最好了