NCBI下载SRR并转换为fastq文件

想下载该篇文献中某一样品的fastq原始数据,看了一些下载教程,方法各异,看完思路还是不清晰,以下记录我的操作步骤,仅供参考

文献链接:Population-genomic analyses reveal bottlenecks and asymmetric introgression from Persian into iron walnut during domestication | Genome Biology | Full Text (biomedcentral.com)

数据可用性:The entire genome resequencing data have been deposited at GenBank under the accession PRJNA356989


想下载该篇文献中某一样品的fastq原始数据,看了一些下载教程,方法各异,看完思路还是不清晰,以下记录我的操作步骤,仅供参考。其中红色圆圈步骤记录蓝色为补充或其他选择


一、NCBI搜索

进入NCBI官网,选择“BioProject”,搜索文献中提供的项目号 PRJNA356989

attachments-2022-12-lS6OizP06392add740331.png

搜索结果如下:

attachments-2022-12-Wgtpdmxs6392aeea3c608.png

attachments-2022-12-JrVYhpF96392af61c81c3.png


点击BioSample对应的数字,跳转到以下界面:

attachments-2022-12-nmf2mzdt6392b0239a2a8.png

任意点击一个样本,得到该样本的信息,之后点击下方SRA,点击 study 中的 all runs 进入到全部样本界面,此处若是想下载该样本,可点击蓝色圆圈(见后续补充)

attachments-2022-12-ftnQTLJX6392b08933f1b.png

attachments-2022-12-EHnLBm766392b1022d8c4.png

attachments-2022-12-o9WRyaHE6392f8d7d2c45.png


二、下载SRR文件

根据SRR号或样本信息筛选,确定自己要下载的样本,得到SRR号,此处以“SRR6382584”为例

点击SRR号,再点击Data Access 进入下载界面

attachments-2022-12-DBUkvvEe6392f8e002d70.pngattachments-2022-12-8KMq7reb6392f8e60933f.png


复制该链接,在Linux中下载

wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR6382584/SRR6382584

注:也可使用aws-cli软件下载Original format的fastq文件,但是安装及配置步骤复杂,不适合新手,若感兴趣可参考配置基础知识 - AWS 命令行界面 (amazon.com)以及Environment variables to configure the AWS CLI - AWS Command Line Interface (amazon.com)


三、将SRR文件转换成fastq文件

使用NCBI提供的SRA-toolkit中的工具fastq-dump将SRR文件转换为fastq格式,将双端测序文件拆分为两个reads

nohup fastq-dump --split-3 --gzip ./SRR6382584 &        #SRR文件需指定路径,时间较长-gzip 命令,输出gz的压缩格式,好处是可以节省空间

或使用更新后的sra解压工具,fasterq-dump, a faster fastq-dump,它能利用临时文件和多线程加速从SRA文件提取fastq

nohup fasterq-dump --split-3 ./SRR6382584 &             #SRR文件需指定路径,时间较短,速度快,但不能用--gzip参数
gzip SRR6382584-1.fastq #压缩为gz格式,结果文件为SRR6382584-1.fastq.gz
gzip SRR6382584-2.fastq #压缩为gz格式,结果文件为SRR6382584-2.fastq.gz

拆分文件时有两种常用的参数,--split-files 和--split-3:

--split-spot: 将双端测序分为两份,但是都放在同一个文件中

--split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃

--split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

另外还有-p 和 -e参数,-p 可以显示进程,-e 指定线程,例如-e 24 是使用24个线程

fastq-dump运行时间较长,更推荐fasterq-dump



补充:使用NCBI提供的SRA-toolkit直接下载SRR文件,并转换为FASTQ格式(数据小于20G)

选择单个样本或多个样本,点击Accession List 下载得到SRR_Acc_List.txt

可将SRR_Acc_List.txt下载到本地后上传至Linux,也可获取SRR_Acc_List.txt链接在Linux里直接下载

attachments-2022-12-G8sEGay96392fae33c0b0.png

attachments-2022-12-MzhCnDbW6392fac00bc13.png

                                                                                           (单个样本)

attachments-2022-12-Gm1hbSIo6392fac8ee6a6.pngattachments-2022-12-rHWtovDv6392fb64df59e.png                                                                                                     (多个样本)

根据该SRR_Acc_List.txt下载SRR数据并转换为fastq文件:

nohup prefetch --option-file SRR_Acc_List.txt &       #下载SRR文件
nohup fasterq-dump --split-3 ./SRR6382584 & #将双端测序文件拆分为两个reads
gzip SRR6382584-1.fastq #压缩为gz格式,结果文件为SRR6382584-1.fastq.gz
gzip SRR6382584-2.fastq #压缩为gz格式,结果文件为SRR6382584-2.fastq.gz
  • 发表于 2022-12-09 11:56
  • 阅读 ( 10585 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
星莓
星莓

生物信息工程师

58 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 351 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. rzx 78 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章