RNA-seq发文必备技能——GEO数据库上传

使用转录组数据发文章必备技能——教你轻松搞定GEO数据上传。


GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通量测序、基因芯片等方法获得的基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递过程中要求进行数据上传的数据库之一

网上关于GEO数据库的上传教程良莠不齐,推荐使用下面的方法快速上传自己的数据到GEO。

第一步 向GEO提交联系信息

正常登录NCBI,如果是首次进入GEO,页面会出现两个选项,如下图:

attachments-2018-04-Rltlirl95adc8fe0b49d6.jpg


对于之前从未上传数据到GEO的同学,请选择第二个选项。

按照要求填写相应的信息,包括注册人员信息和上传者信息,其中最重要的是邮箱信息。填写完毕,管理员会发送通知和链接到你的邮箱。信息填写完毕后会自动登陆GEO。

第二步 创建新提交任务

再次登录进入MY submissions选择new submission,自动跳转进入Subimitting data 界面(下面以高通量测序数据为例进行讲解)选择 High-throughput sequence submissions(如下两图)。

attachments-2018-04-TrKrJJMd5adc908309978.jpgattachments-2018-04-8VXs56HY5adc90908ff4e.jpg

第三步 文件准备

完成上述操作后,页面自动跳转到高通量测序数据上传界面。按照提示准备好三种文件

第一种文件 Metadata spreadsheet主要记录RNA-seq实验的目的、方法、处理过程,以及统计预备上传的所有文件的信息和文件的MD5值等等。网站提供了相应的案例模版(同一页面具有下载链接),此步骤一定要基于模版根据自己实验的实际情况填写所有内容,不可以直接拷贝。模版如下:

attachments-2018-04-otV6aROf5adc90b65f13c.jpg

第二种文件 Processed data files主要是基因表达的数据文件,一般转换成文本格式,可以是多个文件(例如一个样品对应一个文件)也可以是一个文件(多样品数据整合)或者其他的补充文件,包括gff文件等等。这一部分的文件是基于测序的原始数据经处理之后的结果。如果涉及新注释的一些基因的表达数据,则需要提供注释基因的位置信息等(如下图)。attachments-2018-04-IhDHHx5j5adc90d608388.jpg
第三种文件 Raw data files,也就是测序原始数据。一般接受fastq格式(上传fastq压缩文件即可),以及SRA数据库接受的其他格式。

将所有文件整理放置到同一个文件夹内,文件夹名称最好命名为GEO帐号的名称

第四步 使用Filezilla上传数据

attachments-2018-04-LqbPWYDN5adc9113a100a.jpg

整理好文件之后准备开始上传。数据上传前需要安装软件Filezilla(可百度可谷歌,so easy)。

需要注意的是,注册GEO之后在上传页面的Uploading your submission 会提供FTP的地址、账号、密码等信息,需要保存备用,例如:

attachments-2018-04-CWJBQWl15adc9135a1913.jpg

在Filezilla输入刚才获得的地址、帐号、密码就可以登录ftp,登录后界面如下:

attachments-2018-04-YBSuOZ405adc914ec80e3.png

登陆后在界面的右栏创建一个自己的目录(如下图路径目录/20180124_cici),打开对应的目录,拖动界面左栏准备好的所有文件,直接移动到右栏中(如下图),就开始进行数据的上传了。保证网络正常就可以完成相应的上传工作(如果数据量较大,保证网络正常之外,计算机要保证不能出现休眠等停止工作的情况)。
attachments-2018-04-qSnuLMUG5adc9164a8135.png

第五步 给GEO管理员发邮件

最后一步就是给GEO数据库的管理者发邮件。网站明确要求了邮件的内容:

attachments-2018-04-zbdD8cmd5adc91a298b9b.jpg

第一项是介绍清楚自己的GEO登录帐号名称

第二项是上传数据的路径和所有文件的名称。路径是Filezilla上传的路径,如上图注明的路径(创建的目录加上上传的文件夹名称)。

该路径下的所有文件必须一一列举并注明类型。所有文件和Metadata spreadshee统计的数据文件一致包括Processed data files 和Raw data files)。

第三项是说明数据释放日期,如有延后需要注明,但最多不超过三年。

Over

完成以上工作,坐等管理员的答复邮件就可以了。如果数据存在问题,工作人员会提示如何修改,完成处理之后会在邮件中给出GEO的Accession Number。到此,恭喜你完成了所有的上传工作,利用这个登录号就可以查询到上传的数据内容,也可以在文章中引用这个ID进行数据的解释。



更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课:linux系统使用perl入门到精通perl语言高级R语言入门R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析GEO芯片数据挖掘GEO芯片数据标准化GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他,二代测序转录组数据自主分析NCBI数据上传二代测序数据解读


  • 发表于 2018-04-22 21:44
  • 阅读 ( 13321 )
  • 分类:其他

0 条评论

请先 登录 后评论
Daitoue
Daitoue

167 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章