GEO 数据介绍及在线下载

GEO 数据在线下载

1、什么是GEO数据库呢?

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。

它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

最重要的是这个数据库里的数据是免费的。

2、GEO提供的数据类型有那些呢?

GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:

  1. GSE数据编号(Series)
  2. GPL数据编号(GEO platforms)
  3. GSM数据编号(Samples)
  4. GDS数据编号(Datasets)

一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。

详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.html

attachments-2019-11-6sikxAVd5dc8ea36cf88f.png


3 GEO数据下载:

进入GEO数据库官方网站:https://www.ncbi.nlm.nih.gov/geo/。 通过查阅文献,我们可以知道作者提交GEO数据库的GSE数据编号,通过这个编号我们就可以在GEO数据库中搜索相应的GSE编号,然后下载数据了,例如:

如果不知道编号通过直接搜索下载,可参考:https://www.omicsclass.com/article/1101

attachments-2019-11-Czcxrqpa5dc8f3df2913b.png

然后就可以得到相应的数据信息:

attachments-2019-11-NFtOQoPL5dc8f4f37b460.png

GEO数据类型:


说明:

数据类型描述数据解释(解压后可用notepad++打开)
SOFTSOFT formatted family file(s)平台信息芯片中探针与基因的对应关系注释文件,样品单独的表达量,所有信息文件
MINiMLMINiML formatted family file(s)XML格式的所有数据(同SOFT文件单格式不同)
TXTSeries Matrix File(s)所有样品表达矩阵数据文件
TAR (of CEL, EXP)GSE3541_RAW.tar芯片原始数据(cel)文件

4 GEO数据其他编号下载方法:

如果一个GSE数据被NCBI工作人员整理过,会有相应的GDS数据,可到这个网址查询:https://www.ncbi.nlm.nih.gov/sites/GDSbrowser

attachments-2019-11-U1k4VoQ65dc8f5c86ccfb.png


更多GEO数据编号搜索入口如下:https://www.ncbi.nlm.nih.gov/geo/

attachments-2019-11-6p8rkhd65dc906bce4012.png



更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课:linux系统使用biolinux搭建生物信息分析环境linux命令处理生物大数据perl入门到精通perl语言高级R语言画图R语言快速入门与提高python语言入门到精通

7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析GEO芯片数据挖掘 GEO芯片数据不同平台标准化 、GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他,二代测序转录组数据自主分析NCBI数据上传二代fastq测序数据解读

9.全部课程可点击:组学大讲堂视频课程



  • 发表于 2019-11-11 13:21
  • 阅读 ( 23268 )
  • 分类:GEO

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

702 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章