转录组数据分析基因的差异表达,找到差异表达基因之后,一般都需要看看一看基因的功能。比较常见方法就是查看基因的GO,KEGG注释和富集情况。
我在《转录组数据分析》课程中推荐大家采用clusterProfiler。这个软件目前能支持20种模式物种的注释,但其实不止这些,软件的作者也给出了,针对非模式物种的一些解决方案。 参考这个方案,我们看看目前能支持哪些非模式物种
1. 从AnnotationHub搜索物种的拉丁文名称,即可查看是否存在物种的注释信息,以水稻为例, :
require(AnnotationHub) hub <- AnnotationHub() query(hub, "Oryza_sativa")
AnnotationHub with 2 records # snapshotDate(): 2017-10-27 # $dataprovider: Inparanoid8, ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/ # $species: Oryza sativa, Oryza sativa_Japonica_Group # $rdataclass: Inparanoid8Db, OrgDb # additional mcols(): taxonomyid, genome, description, coordinate_1_based, maintainer, # rdatadateadded, preparerclass, tags, rdatapath, sourceurl, sourcetype # retrieve records with, e.g., 'object[["AH10561"]]' title AH10561 | hom.Oryza_sativa.inp8.sqlite AH59059 | org.Oryza_sativa_Japonica_Group.eg.sqlite
需要注意的是,选择的数据库需要跟我们分析时采用的基因组版本相对应,否则可能存在基因ID 编号不一致,无法进行注释和富集。
2. AnnotationHub 中常见物种的注释情况
水稻 Oryza_sativa
高粱 Sorghum_bicolor
玉米 Zea_mays
大豆 Glycine_max
油菜 Brassica_napus
苜蓿 Medicago
由于支持的物种还是比较多,有1200多个,不方便列举,可以下载详细的物种列表进行查看。
如果您对TCGA数据挖掘感兴趣,请学习我的TCGA系列课程:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!