国际上著名的综合生物数据库有三个,分别为NCBI,ENA,DDBJ ,高通量测序的数据往往会提交到这些数据库,下面分别介绍一下:
NCBI|Genbank:https://www.ncbi.nlm.nih.gov/ ;NCBI是由美国国家生物技术信息中心(National Center for Biotechnology Information)开发并负责维护,隶属于美国国立卫生研究院(National Institutes of Health, NIH)。
ENA:https://www.ebi.ac.uk/ena/browser/home;欧洲核苷酸序列数据库(European Nucleotide Archive),由欧洲分子生物学研究室(European Molecular Biology Laboratory,EMBL)开发并维护。
DDBJ:https://www.ddbj.nig.ac.jp/index-e.html;DDBJ是日本DNA数据库(DNA Data Bank of Japan),由日本国立遗传学研究所(National Institute of Geneics, NIG)开发并负责维护。
重要的是,以上三个数据库共同组成了国际核酸序列数据库合作联盟(International Nucleotide Sequence Database Collaboration,INSDC)。即这个数据库的信息可以相互交换,同步更新,共享。因此我们,下载高通量测序的数据都可以在这三个数据库中去查找,据我了解ENA的数据下载速度最快,最近NCBI的数据和亚马逊云合作下载速度也非常快。下面介绍一下下载方法:
打开ncbi官网(https://www.ncbi.nlm.nih.gov),点击搜索project号 PRJEB19900。
点击"22",项目有22个样本:
再随机点击一个
之后点击,All run,就可以看到这个project下所有样本的数据;
来到所有样本的数据信息页面,点击想要下载的数据:
来到数据下载页面:
两种数据类型下载:
说明:data assess下面的数据可以直接复制链接到迅雷下载,之后用 SRA Toolkit 中的fastq-dump 工具转换成fastq格式;另外,也提供直接下载fastq格式入口;
打开网址:https://www.ebi.ac.uk/ena/browser/home;同样搜索这个project号;
选择其中一个:
这里就可以直接下载fastq数据了:
迅雷下载速度测试:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!