1、什么是GEO数据库呢?
GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。
它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
最重要的是这个数据库里的数据是免费的。
2、GEO提供的数据类型有那些呢?
GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:
一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。
详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.html
3 GEO数据下载:
进入GEO数据库官方网站:https://www.ncbi.nlm.nih.gov/geo/。 通过查阅文献,我们可以知道作者提交GEO数据库的GSE数据编号,通过这个编号我们就可以在GEO数据库中搜索相应的GSE编号,然后下载数据了,例如:
如果不知道编号通过直接搜索下载,可参考:https://www.omicsclass.com/article/1101
然后就可以得到相应的数据信息:
GEO数据类型:
说明:
数据类型 | 描述 | 数据解释(解压后可用notepad++打开) |
SOFT | SOFT formatted family file(s) | 平台信息芯片中探针与基因的对应关系注释文件,样品单独的表达量,所有信息文件 |
MINiML | MINiML formatted family file(s) | XML格式的所有数据(同SOFT文件单格式不同) |
TXT | Series Matrix File(s) | 所有样品表达矩阵数据文件 |
TAR (of CEL, EXP) | GSE3541_RAW.tar | 芯片原始数据(cel)文件 |
4 GEO数据其他编号下载方法:
如果一个GSE数据被NCBI工作人员整理过,会有相应的GDS数据,可到这个网址查询:https://www.ncbi.nlm.nih.gov/sites/GDSbrowser
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、biolinux搭建生物信息分析环境、linux命令处理生物大数据、perl入门到精通、perl语言高级、R语言画图、R语言快速入门与提高、python语言入门到精通
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、 GEO芯片数据不同平台标准化 、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代fastq测序数据解读、
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!