在R中如何利用ENSEMBL ID获得Gene ID(ENTREZID), 又或者转换为Gene Symbol,以人为例:
预先安装AnnotationDbi 和 org.Hs.eg.db
加载org.Hs.eg.db
> library(org.Hs.eg.db)
获取所有的ENSEMBL ID,并查看前五个ID
> k=keys(org.Hs.eg.db,keytype = "ENSEMBL")
> head(k,5)
[1] "ENSG00000121410" "ENSG00000175899" "ENSG00000256069" "ENSG00000171428" "ENSG00000156006"
基于提取的ENSEMBL ID,提取对应的所有Gene ID(ENTREZID),(以及Symbol),并查看一下提取的内容。
> list=select(org.Hs.eg.db,keys=k,columns = c("ENTREZID","SYMBOL"), keytype="ENSEMBL")
'select()' returned 1:many mapping between keys and columns
> dim(list)
[1] 29140 3
> head(list,5)
ENSEMBL ENTREZID SYMBOL
1 ENSG00000121410 1 A1BG
2 ENSG00000175899 2 A2M
3 ENSG00000256069 3 A2MP1
4 ENSG00000171428 9 NAT1
5 ENSG00000156006 10 NAT2
预先准备的ENSEMBL ID,如何找到他们对应的Gene ID(ENTREZID)和Symbol,例如ID 中的,获得的对应关系:ID_list
> ID
[1] "ENSG00000256069" "ENSG00000127837" "ENSG00000129673" "ENSG00000276016" "ENSG00000075624" "ENSG00000204262"
[7] "ENSG00000149294" "ENSG00000069943" "ENSG00000173992" "ENSG00000166171" "ENSG00000177201"
> ID_list=list[match(ID,list[,"ENSEMBL"]),]
> ID_list
ENSEMBL ENTREZID SYMBOL
3 ENSG00000256069 3 A2MP1
8 ENSG00000127837 14 AAMP
9 ENSG00000129673 15 AANAT
30 ENSG00000276016 29 ABR
59 ENSG00000075624 60 ACTB
1017 ENSG00000204262 1290 COL5A2
3856 ENSG00000149294 4684 NCAM1
7605 ENSG00000069943 9488 PIGB
8058 ENSG00000173992 9973 CCS
10155 ENSG00000166171 25911 DPCD
17531 ENSG00000177201 127064 OR2T12
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、perl入门到精通、perl语言高级、R语言入门、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、GEO芯片数据标准化、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!