上次我们介绍了一篇GEO入门的文章,这次我们介绍一篇稍高分数的文章,来看一下生信挖掘文章如何发更高档次的杂志。这篇文章是利用GEO和TCGA数据挖掘宫颈癌预后相关的关键基因,2019年发表在Journal of Cellular Physiology 影响因子:4.52左右。
作者在GEO数据库中找到宫颈癌相关的基因芯片数据:GSE63514,其中,包含28个宫颈癌样品和24个正常样本的基因芯片表达数据,通过差异分析共发现:1907个差异基因(944 up, 963 down)。作者利用火山图展示差异基因结果,其中差异最大的top200个基因绘制热图(如下图)。
将差异基因提交到STRING蛋白互作数据库,构建基因互作网络,利用cytoscape软件中的MCODE插件筛选出三个关键子网络。把这些子网络中的基因进行GO注释;
利用R语言中的WGCNA包,根据差异基因的表达量信息构建共表达网络,作者获得了4个共表达模块,其中蓝色模块与宫颈癌正相关,棕色模块与宫颈癌负相关(下图c),因此作者在这两个模块中挑选hub 基因用于后续分析。
通过WGCNA共表达网络分析,作者共挑选出116个关键hub基因。然后,利用TCGA中宫颈癌表达数据以及临床数据,通过生存分析挖掘与预后相关的关键基因。具体方法是用Cox多因素回归分析筛选与疾病显著相关的基因,最终发现SCNN1B, ANLN, APOC1, CNTLN, and TEX30 五个基因具有显著的预后相关性,并构建预后风险模型:
过风险模型可将病人分成高风险和低风险两组,生存分析发现两组具有明显的差异(下图a)。然后针对模型的准确性进行评估,ROC曲线中AUC值达到0.719,说明这个预测模型在5年生存期内预后表现非常好。
作者再次对前面分析出的hub基因进行分析,利用GEPIA database 数据库筛选出与生存率相关的候选基因, 作者发现基因RMI2和EPHX2在患者中表达量越高患者生存时间会越长,进一步在TCGA数据中的甲基化芯片数据分析发现,这两个基因的表达量与甲基化的水平负相关,生存分析结果表明RMI2基因的高甲基化患者组与低甲基化组生存率生存期存在显著不同(下图cd),但是,EPHX2的甲基化水平与生存率不相关。
为进一步说明这两个基因与宫颈的预后相关,作者又在两个数据库(FireBrowse and ONCOMINE)中查看他们在正常组织和癌组织中的表达量发现:EPHX2和RMI2在绝大多数癌症当中都表现为低表达;从而证明了这个两个基因如果高表达有益于患者的生存期延长。
作者能发相对较高分数的文章,与其使用的数据库较多有关系,多个数据相互验证,更加说明自己结果的准确性。使用到的公开数据库包括:GEO数据,TCGA表达数据,TCGA甲基化数据,GEPIA database,以及FireBrowse and ONCOMINE数据库。分析流程总结如下:
参考文献:https://www.ncbi.nlm.nih.gov/pubmed/31041817
延申阅读
GEO芯片数据下载 |GEO数据与WGCNA--挖掘胶质瘤共表达网络的关键模块与通路|GEO和TCGA套路文章解说 | 基因芯片表达差异分析 | GSEA法基因功能富集分析原理详解! | 挖别人的数据,发自己的文章 | TCGA-数据挖掘 | 转录因子研究方法! |GEO芯片数据挖掘(直肠癌)
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!