转录组自主分析课程中遇见的问题

老师,我在学习转录组分析的过程中遇见了一些问题。

转录组自主分析的课程中,在学习的过程中,感觉很辛苦。基因表达定量生成的矩阵文件gene_read_counts_table_all_final.tsv中的基因的ID是这种:ENSG00000063515和MSTRG.1。到了基因功能富集分析这节课的时候,课程用的基因ID又变成了AT1G02350。请问老师,这种ID的转化如何进行的?整个课程中并没有提到这一块。

是不是下面这条命令没有讲解呢?perl -ne 'if ($_ =~ /gene_id\s\"(ENSG\S+)\"\;/) { $id = $1; $name = undef; if ($_ =~ /gene_name\s\"(\S+)"\;/) { $name = $1; }; }; if ($id && $name) {print "$id\t$name\n";} if ($_=~/gene_id\s\"(ERCC\S+)\"/){print "$1\t$1\n";}' /var/data/work/refs/chr22_with_ERCC92.gtf | sort | uniq > ENSG_ID2Name.txt

head ENSG_ID2Name.txt。如果是,请详细帮我们讲解一下,谢谢!这个讲解,我看您跳过了这一条命令。


请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

这步perl只是提取了 GTF文件中不同ID的对应关系;

后面的基因富集用的clusterprofile 这个R包你可以看看帮助;

请先 登录 后评论
  • 1 关注
  • 0 收藏,2413 浏览
  • lord of king 提出于 2020-03-18 22:36

相似问题