GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通量测序、基因芯片等方法获得的基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递过程中要求进行数据上传的数据库之一。
网上关于GEO数据库的上传教程良莠不齐,推荐使用下面的方法快速上传自己的数据到GEO。
第一步 向GEO提交联系信息
正常登录NCBI,如果是首次进入GEO,页面会出现两个选项,如下图:
对于之前从未上传数据到GEO的同学,请选择第二个选项。
按照要求填写相应的信息,包括注册人员信息和上传者信息,其中最重要的是邮箱信息。填写完毕,管理员会发送通知和链接到你的邮箱。信息填写完毕后会自动登陆GEO。
第二步 创建新提交任务
再次登录进入MY submissions选择new submission,自动跳转进入Subimitting data 界面(下面以高通量测序数据为例进行讲解)选择 High-throughput sequence submissions(如下两图)。
第三步 文件准备
完成上述操作后,页面自动跳转到高通量测序数据上传界面。按照提示准备好三种文件。
第一种文件 Metadata spreadsheet,主要记录RNA-seq实验的目的、方法、处理过程,以及统计预备上传的所有文件的信息和文件的MD5值等等。网站提供了相应的案例模版(同一页面具有下载链接),此步骤一定要基于模版,根据自己实验的实际情况填写所有内容,不可以直接拷贝。模版如下:
第二种文件 Processed data files,主要是基因表达的数据文件,一般转换成文本格式,可以是多个文件(例如一个样品对应一个文件)也可以是一个文件(多样品数据整合),或者其他的补充文件,包括gff文件等等。这一部分的文件是基于测序的原始数据经处理之后的结果。如果涉及新注释的一些基因的表达数据,则需要提供注释基因的位置信息等(如下图)。
第三种文件 Raw data files,也就是测序原始数据。一般接受fastq格式(上传fastq压缩文件即可),以及SRA数据库接受的其他格式。
将所有文件整理放置到同一个文件夹内,文件夹名称最好命名为GEO帐号的名称。
第四步 使用Filezilla上传数据
整理好文件之后准备开始上传。数据上传前需要安装软件Filezilla(可百度可谷歌,so easy)。
需要注意的是,注册GEO之后在上传页面的Uploading your submission 会提供FTP的地址、账号、密码等信息,需要保存备用,例如:
在Filezilla输入刚才获得的地址、帐号、密码就可以登录ftp,登录后界面如下:
登陆后在界面的右栏创建一个自己的目录(如下图路径目录/20180124_cici),打开对应的目录,拖动界面左栏准备好的所有文件,直接移动到右栏中(如下图),就开始进行数据的上传了。保证网络正常就可以完成相应的上传工作(如果数据量较大,保证网络正常之外,计算机要保证不能出现休眠等停止工作的情况)。
第五步 给GEO管理员发邮件
最后一步就是给GEO数据库的管理者发邮件。网站明确要求了邮件的内容:
第一项是介绍清楚自己的GEO登录帐号名称。
第二项是上传数据的路径和所有文件的名称。路径是Filezilla上传的路径,如上图注明的路径(创建的目录加上上传的文件夹名称)。
该路径下的所有文件必须一一列举,并注明类型。(所有文件和Metadata spreadshee统计的数据文件一致,包括Processed data files 和Raw data files)。
第三项是说明数据释放日期,如有延后需要注明,但最多不超过三年。
Over
完成以上工作,坐等管理员的答复邮件就可以了。如果数据存在问题,工作人员会提示如何修改,完成处理之后会在邮件中给出GEO的Accession Number。到此,恭喜你完成了所有的上传工作,利用这个登录号就可以查询到上传的数据内容,也可以在文章中引用这个ID进行数据的解释。
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课:linux系统使用、perl入门到精通、perl语言高级、R语言入门、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析、GEO芯片数据挖掘、GEO芯片数据标准化、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他,二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!