NCBI 数据下载

介绍如何在大型生物数据库NCBI上下载数据

已发表的文章的原始数据往往会公布出来,大家可以基于原始数据进行信息深挖,结合自己的生物学问题也可以撰写出不错的文章。

这些公开的数据大部分会上传到大型数据库,少部分会进行自己网站的构建后放在自己的网站上。今天主要是介绍如何在大型生物数据库NCBI上下载数据。

1. 直接下载:数据量小于5G的时候适用

① 检索:搜索一个sra号,进入RUN的详情页

attachments-2023-12-7bNc2Ata657fb52d37c8c.png

② 下载到本地:选择download一栏会直接下载到本地,不想下载到本地请看③

attachments-2023-12-cUE4kyAe657fb59923a76.png
③下载到服务器:复制下载链接到linux上下载

wget -c -b https://www.be-md.ncbi.nlm.nih.gov/Traces/sra-reads-be/fastq?acc=DRR296014


2. 利用软件:SRA Toolkit 和 Aspera

(1) SRA Toolkit 

① 单个下载:指定Run编号下载

prefetch DRR296014

② 批量下载 :先在NCBI下载所有run的信息


attachments-2023-12-aWhMrd0L657fb762e8cb2.png

attachments-2023-12-tyBn3LLE657fb79123ee5.png

执行命令:

prefetch --option-file SRR_Acc_List.txt

③ 格式转换:sra变成fq

# 双端测序:
fastq-dump --split-3 sra文件
# 单端测序:
fastq-dump  sra文件


更快的转换方式:

fasterq-dump --split-3 sra文件


(2) Aspera

直接下载,需要去除前面的域名,用如下命令下载,注意最后有一个点.,表示文件下载到当前目录并且保持原文件名

ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 100M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/refseq/release/viral/viral.2.1.genomic.fna.gz .


参考:

SRA Toolkit - prefetch 快速下载NCBI SRA数据 - 简书 (jianshu.com)

下载NCBI SRA数据的最佳方法 - 知乎 (zhihu.com)

Aspera:基因组数据高速下载利器,以NCBI和EBI数据下载为例 - 知乎 (zhihu.com)


  • 发表于 2023-12-18 11:25
  • 阅读 ( 1559 )
  • 分类:其他

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Ti Amo
Ti Amo

48 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章