clusterProfiler做非模式物种的功能注释

转录组数据分析基因的差异表达，找到差异表达基因之后，一般都需要看看一看基因的功能。比较常见方法就是查看基因的GO，KEGG注释和富集情况。

我在《转录组数据分析》课程中推荐大家采用clusterProfiler。这个软件目前能支持20种模式物种的注释，但其实不止这些，软件的作者也给出了，针对非模式物种的一些解决方案。参考这个方案，我们看看目前能支持哪些非模式物种

1. 从AnnotationHub搜索物种的拉丁文名称，即可查看是否存在物种的注释信息，以水稻为例, ：

require(AnnotationHub)
hub <- AnnotationHub()
query(hub, "Oryza_sativa")

AnnotationHub with 2 records
# snapshotDate(): 2017-10-27 
# $dataprovider: Inparanoid8, ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
# $species: Oryza sativa, Oryza sativa_Japonica_Group
# $rdataclass: Inparanoid8Db, OrgDb
# additional mcols(): taxonomyid, genome, description, coordinate_1_based, maintainer,
#   rdatadateadded, preparerclass, tags, rdatapath, sourceurl, sourcetype 
# retrieve records with, e.g., 'object[["AH10561"]]' 

            title                                    
  AH10561 | hom.Oryza_sativa.inp8.sqlite             
  AH59059 | org.Oryza_sativa_Japonica_Group.eg.sqlite

需要注意的是，选择的数据库需要跟我们分析时采用的基因组版本相对应，否则可能存在基因ID 编号不一致，无法进行注释和富集。

2. AnnotationHub 中常见物种的注释情况

水稻 Oryza_sativa

高粱 Sorghum_bicolor

玉米 Zea_mays

大豆 Glycine_max

油菜 Brassica_napus

苜蓿 Medicago

由于支持的物种还是比较多，有1200多个，不方便列举，可以下载详细的物种列表进行查看。

如果您对TCGA数据挖掘感兴趣，请学习我的TCGA系列课程：

《TCGA-生存分析》

《TCGA-基因差异表达分析》

《TCGA-转录因子调控》