GEO和TCGA数据挖掘生物信息文章解读(宫颈癌)

GEO和TCGA数据挖掘生物信息文章解读(宫颈癌)

上次我们介绍了一篇GEO入门的文章,这次我们介绍一篇稍高分数的文章,来看一下生信挖掘文章如何发更高档次的杂志。这篇文章是利用GEO和TCGA数据挖掘宫颈癌预后相关的关键基因,2019年发表在Journal of Cellular Physiology 影响因子:4.52左右。

attachments-2019-07-7hKglKek5d3e9378ace63.jpg

1.芯片数据差异基因及注释分析结果

作者在GEO数据库中找到宫颈癌相关的基因芯片数据:GSE63514,其中,包含28个宫颈癌样品和24个正常样本的基因芯片表达数据,通过差异分析共发现:1907个差异基因(944 up, 963 down)。作者利用火山图展示差异基因结果,其中差异最大的top200个基因绘制热图(如下图)。

attachments-2019-07-sVdvw1jK5d3e938754255.jpg

2.差异基因蛋白互作网络分析PPI分析

将差异基因提交到STRING蛋白互作数据库,构建基因互作网络,利用cytoscape软件中的MCODE插件筛选出三个关键子网络。把这些子网络中的基因进行GO注释;

attachments-2019-07-ds6O14HF5d3e939613e60.jpg

3.针对差异基因构建共表达网络

利用R语言中的WGCNA包,根据差异基因的表达量信息构建共表达网络,作者获得了4个共表达模块,其中蓝色模块与宫颈癌正相关,棕色模块与宫颈癌负相关(下图c),因此作者在这两个模块中挑选hub 基因用于后续分析。

attachments-2019-07-wIGB3Pn25d3e93a4c5c88.jpg

4. 从hub基因中筛选预后相关基因

通过WGCNA共表达网络分析,作者共挑选出116个关键hub基因。然后,利用TCGA中宫颈癌表达数据以及临床数据,通过生存分析挖掘与预后相关的关键基因。具体方法是用Cox多因素回归分析筛选与疾病显著相关的基因,最终发现SCNN1B, ANLN, APOC1, CNTLN, and TEX30 五个基因具有显著的预后相关性,并构建预后风险模型:


attachments-2019-07-BjVydvPT5d3e93c1ace34.jpg

过风险模型可将病人分成高风险和低风险两组,生存分析发现两组具有明显的差异(下图a)。然后针对模型的准确性进行评估,ROC曲线中AUC值达到0.719,说明这个预测模型在5年生存期内预后表现非常好。

attachments-2019-07-s4N8xr1x5d3e93cd47ee4.jpg

5.甲基化数据筛选EPHX2和RMI2

作者再次对前面分析出的hub基因进行分析,利用GEPIA database 数据库筛选出与生存率相关的候选基因, 作者发现基因RMI2和EPHX2在患者中表达量越高患者生存时间会越长,进一步在TCGA数据中的甲基化芯片数据分析发现,这两个基因的表达量与甲基化的水平负相关,生存分析结果表明RMI2基因的高甲基化患者组与低甲基化组生存率生存期存在显著不同(下图cd),但是,EPHX2的甲基化水平与生存率不相关。

attachments-2019-07-wtd45lBw5d3e93db267b7.jpg

为进一步说明这两个基因与宫颈的预后相关,作者又在两个数据库(FireBrowse and ONCOMINE)中查看他们在正常组织和癌组织中的表达量发现:EPHX2和RMI2在绝大多数癌症当中都表现为低表达;从而证明了这个两个基因如果高表达有益于患者的生存期延长。

总结:

作者能发相对较高分数的文章,与其使用的数据库较多有关系,多个数据相互验证,更加说明自己结果的准确性。使用到的公开数据库包括:GEO数据,TCGA表达数据,TCGA甲基化数据,GEPIA database,以及FireBrowse and ONCOMINE数据库。分析流程总结如下:

attachments-2019-07-R4w75RLl5d3e93ead78db.jpg

参考文献:https://www.ncbi.nlm.nih.gov/pubmed/31041817

延申阅读

GEO芯片数据下载 |GEO数据与WGCNA--挖掘胶质瘤共表达网络的关键模块与通路|GEO和TCGA套路文章解说 | 基因芯片表达差异分析 | GSEA法基因功能富集分析原理详解! | 挖别人的数据,发自己的文章 | TCGA-数据挖掘 | 转录因子研究方法! |GEO芯片数据挖掘(直肠癌)



更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读


  • 发表于 2019-07-29 14:37
  • 阅读 ( 6909 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

700 篇文章

作家榜 »

  1. omicsgene 700 文章
  2. 安生水 348 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 75 文章
  8. CORNERSTONE 72 文章