胰腺导管腺癌的五年生存率低于5%,是目前主要致死的癌症之一。如何结合多个公开数据库数据分析和挖掘此类癌症临床诊断和预后的关键基因呢?这里就给大家介绍一篇文献:基于共表达分析鉴定胰腺导管腺癌进展与预后的10个关键基因。
数据来源
基于GEO数据库获取GSE62452数据(69癌症样本/61癌旁样本)进行共表达分析,借助TCGA数据库下载的146个样本数据、GEO数据库下载的GSE62165涉及的131个样本数据等进行验证。
数据分析
1.GSE62452数据处理及差异分析
从GEO数据库下载GSE62452原始数据,并基于RMA算法进行背景校正及其他标准化处理,再进一步基于R包limma完成差异分析,以FDR<0.05 & |log2FC| ≥0.585为差异筛选阈值,共获得了1008个差异基因(699 up-regulated / 309 down-reguated),差异基因的表达谱和火山图分布情况见下图。
2.加权基因共表达网络分析
基于上一步分析筛选获取的差异基因进行WGCNA分析,power值选定8(R2>0.89),共获得4个有效模块(见下图A),同时结合性状数据分析各模块和基因之间的相关性(见下图C),计算基因与性状之间的GS(gene significance),并统计各模块内平均的GS作为MS(module significance)从而多方面衡量和选择重要模块进一步分析(见下图B)。
结合性状关联分析最终选定和胰腺导管腺癌最相关黄色模块进一步分析。并基于模块内GS与MM分析筛选出了43个基因进行后期分析(见下图A)。
3.蛋白互作分析
为探索基因之间的蛋白互作关系,利用string数据库进行分析,最终基于yellow模块所有基因获取了一个蛋白质互作网络(80 nodes and 930 edges,见上图B),从中选择出连接点数超过23的所有基因,一共涉及了42个基因,其中和基于模块和性状分析筛选的42个基因的重合有36个,该部分基因将作为候选进一步验证。
4.筛选与验证
36个候选基因,利用GSE62452以及TCGA数据库数据进行生存分析,最终筛选出10个关键基因 (p value<0.05,见下图)。
文章进一步开展ROC曲线分析,结果显示筛选到的10个基因AUC值大于0.5(见下图)。
此外,为探究关键模块中的差异基因是否涉及癌症相关功能,利用DAVID对yellow模块中的所有基因进行了富集分析,结果如下图所示,GO分析结果显示有丝分裂、细胞分裂显著富集,KEGG分析结果显示细胞周期最为显著(见下图)。
基于GSE62165数据库数据进行GSEA分析,同样发现细胞周期、DNA复制、错配修复等显著富集(见下图)。
结论
作者利用和GEO数据库、TCGA数据库等多项项数据进行数据挖掘分析,并多方面的验证和分析结果,成功筛选到10个可能对胰腺导管腺癌临床预后具有重要作用的关键基因。
参考文献
Zhou Z , Yian C , Yinan J , et al. Ten hub genes associated with progression and prognosis of pancreatic carcinoma identified by co-expression analysis[J]. International Journal of Biological Sciences, 2018, 14(2):124-136.
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、perl入门到精通、perl语言高级、R语言入门、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、GEO芯片数据标准化、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!