转录组自主分析课程中遇见的问题

老师，我在学习转录组分析的过程中遇见了一些问题。

转录组自主分析的课程中，在学习的过程中，感觉很辛苦。基因表达定量生成的矩阵文件gene_read_counts_table_all_final.tsv中的基因的ID是这种：ENSG00000063515和MSTRG.1。到了基因功能富集分析这节课的时候，课程用的基因ID又变成了AT1G02350。请问老师，这种ID的转化如何进行的？整个课程中并没有提到这一块。

是不是下面这条命令没有讲解呢？perl -ne 'if ($_ =~ /gene_id\s\"(ENSG\S+)\"\;/) { $id = $1; $name = undef; if ($_ =~ /gene_name\s\"(\S+)"\;/) { $name = $1; }; }; if ($id && $name) {print "$id\t$name\n";} if ($_=~/gene_id\s\"(ERCC\S+)\"/){print "$1\t$1\n";}' /var/data/work/refs/chr22_with_ERCC92.gtf | sort | uniq > ENSG_ID2Name.txt

head ENSG_ID2Name.txt。如果是，请详细帮我们讲解一下，谢谢！这个讲解，我看您跳过了这一条命令。

0 条评论
分类：转录组

默认排序时间排序

1 个回答

omicsgene - 生物信息 2020-03-19 18:53

擅长：重测序,遗传进化,转录组,GWAS

这步perl只是提取了ＧＴＦ文件中不同ＩＤ的对应关系；

后面的基因富集用的clusterprofile 这个R包你可以看看帮助；

转录组自主分析课程中遇见的问题

1 个回答

相似问题