WGCNA、生存分析、ROC共同筛选biomarker

WGCNA筛选最终Biomarker的过程

Biomarker有助于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。此前小编给大家解读了一篇针对过敏性哮喘疾病,利用WGCNA,鉴定关键模块和hub基因,筛选Biomarker的文献(链接),今天将介绍一篇新的文献:针对多形性胶质母细胞瘤,利用WGCNA筛选关键模块中的hub基因,同时结合生存分析、ROC曲线利用其他数据库数据进行验证并筛选最终Biomarker的过程

背景简介

多形性胶质母细胞瘤是一种非常严重的脑瘤,占所有类型的15%左右,生存时间一般少于15个月,目前主要的治疗手段是外科手术,但常出现复发。因此,通过研究其分子和结构水平的机制将有助于疾病的治疗。
数据来源

通过GEO数据库下载GSE50161数据(34个肿瘤样本/13个正常对照样本)利用WGCNA,筛选hub基因
通过
TCGA下载了148个样品的表达数据和临床数据,对hub基因进行生存分析,从而验证结果并筛选Biomarker
再次下载
GEO数据库数据:GSE24084数据,基于ROC曲线分析,对hub基因进行验证,同样筛选Biomarker。
数据分析

下载GSE50161数据,利用limma包进行标准化处理,之后针对47个样品的数据进行差异表达基因的筛选。以P < 0.05,|LFC|> 2,共筛选了1913个差异基因(见下图a、b),结合热图可以明显发现这些差异基因在两组样品中表达变化趋势明显。
之后,按照无尺度网络的标准,设定power(18),对差异基因表达数据构建共表达网络,
共获得了4个有效模块(见下图c、d)。

attachments-2019-01-vkOUM9za5c2efe51ded7b.jpg

针对模块内的基因,分析其表达模式,结果发现:turquoise和 yellow两个模块的基因,整体上在肿瘤样本中较之正常样本出现下调,blue和brown模块表现相反的趋势,呈现上调状态(见下图)。

attachments-2019-01-5XpUkBXK5c2efe62a0ed0.jpg

计算模块特征基因和性状之间的关联,结果表明:blue和brown模块和疾病状态显著正相关,而turquoise和 yellow两个模块负相关(见下图a),同时统计每个模块中基因同性状之间的相关性:基因显著性GS,并计算均值(见下图b)。

attachments-2019-01-lsxFlb0M5c2efe6e1138b.jpg

为掌握各模块中基因的主要功能,进行GO和KEGG富集分析,最终发现绝大部分的显著富集的GO term和pathway都和该疾病相关(见下表)。

attachments-2019-01-NCeAvse05c2efe7a00cc5.jpg

进一针对有效模块进行关键基因的鉴定,通过基因在模块内连通性的大小,从每个模块内筛选出TOP20的基因,并利用Cytoscape绘制相关的网络图,展示如下:

attachments-2019-01-V2uGjglz5c2efe83ee597.jpg

生存分析验证筛选

基于筛选的hub基因,利用TCGA数据库下载相关的148个样品的表达数据和临床数据进行生存分析,最终基于每个模块中的minimal P值,筛选出了四个基因,分别是SULT4A1 (yellow)、FXYD1 (blue),、NUSAP1 (brown),、GPR65 (turquoise),后三者同时包含FXYD domain。

attachments-2019-01-buPBoCz65c2efe8e23aae.jpg

ROC曲线验证筛选

下载GEO数据库数据:GSE24084数据,同样对每个模块中的hub基因进行验证,最终从四个模块中获取到了如下图四个基因,这些基因对应的|AUC-0.5|最大(作为有效的分类标准)。

attachments-2019-01-ZVsPSR0z5c2efe984281f.jpg

结论

这篇文章通过WGCNA的方法获得有效模块之后,基于常规的方式筛选获取网络中的hub基因,同时充分利用了现有数据,譬如结合其他数据库中的数据或者同一数据库不同数据集进行验证和筛选,可以获得更准确高效的Biomarker进行疾病的诊断和治疗。

参考文献: Yang Q, Wang R, Wei B, et al. Candidate Biomarkers and Molecular Mechanism Investigation for Glioblastoma Multiforme Utilizing WGCNA[J]. BioMed research international, 2018.



相关课程:

TCGA-基因差异表达分析、 TCGA-生存分析 GEO芯片数据挖掘GEO芯片数据标准化WGCNA-加权基因共表达网络分析


更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课:linux系统使用perl入门到精通perl语言高级R语言入门R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析GEO芯片数据挖掘GEO芯片数据标准化GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他,二代测序转录组数据自主分析NCBI数据上传二代测序数据解读


  • 发表于 2019-01-04 14:39
  • 阅读 ( 6049 )
  • 分类:文献解读

0 条评论

请先 登录 后评论
Daitoue
Daitoue

167 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章