国家基因组科学数据中心(National Genomics Data Center,简称NGDC)于2019年6月经科技部、财政部通知公布,由中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,研发大数据前沿交叉与转化应用的新方法和新技术,建设支撑我国生命科学发展、国际领先的基因组科学数据中心。
2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物。
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案。
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github。
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里。
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里。
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等。
基因表达数据库(GEN):等同于国际上的GO。
代谢组数据就可以上传到多元数据归档库(OMIX)。
上传代谢组数据大致可以分为3个步骤:
NGDC主页地址:https://ngdc.cncb.ac.cn/。进入后点"登录"注册账号。
使用邮箱注册,或者已经有账号的直接登录,具体注册过程就不介绍了。
然后会进入到如下界面,点击"BioProject"创建新的BioProject。
这里会列出所有已创建的BioProject,我们点击"新建BioProject"。
填写提交者信息,带有*的为必填项。
然后填写项目的信息,如发布日期、项目、资金来源等必填的一些信息,鼠标放在对应文本框里会提示要填写的内容,根据自己实际项目情况填写就行。除此外还有关联项目等非必填信息,如果有的话也可以填上,没有就空着。
选择项目数据类型和样本范围。
最后检查一下自己填写的信息提交就行。
有两种上传方式:在线上传和FTP上传。如果数据小于100MB,可以选择在线上传,大于100MB最好选择FTP上传。
FTP上传需要使用 FTP 客户端软件如 FileZilla(https://filezilla-project.org/)。
如果您的数据文件个数比较少,您可以直接上传。如果您的文件个数比较多,也可以考虑分类压缩为 tar 或 zip 的包,建议每个文件压缩包的大小不宜超过10GB。计算打包后的数据MD5码,MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:
Linux 用户使用 md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):
md5sum D1-1_1.clean.fq.gz
Mac 用户使用 md5 命令计算;
Windows 用户使用第三方工具进行计算,例如 winmd5free、好压 2345。
数据软件都准备好后,就可以上传了。打开FileZilla,填写主机信息为“submit.big.ac.cn”,NGDC用户登录账号邮箱和密码,然后点击“快速连接”,状态栏显示登录成功。
在“本地站点”选择需要上传数据的本地数据路径,直接拖到“远程站点”中的 OMIX 文件夹中。等待上传完成。
在BioProject界面或者其它界面点击"OMIX"进入OMIX数据库界面,选择添加新的提交。
选择FTP上传方式。
填写数据信息。
选择上传的数据,填写数据的名称、数量、MD5码等信息。
选择创建好的BioProject号以及释放日期,点击提交就大功告成啦!然后就是等待网站审核,速度还是很快的。
好啦,到这里我们就讲完了,有需要的同学自己动手试一下吧!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!