Linux安装细胞器组装软件--GetOrganelle

GetOrganelle软件是一款由郁文斌老师开发的一套全新的细胞器基因组组装工具,可以对大规模的细胞器基因组进行快速、准确及自动化组装。

GetOrganelle软件是一款由郁文斌老师开发的一套全新的细胞器基因组组装工具,可以对大规模的细胞器基因组进行快速、准确及自动化组装。

原作推荐了三种安装方法:


安装方法一:(小白)利用Conda安装

安装方法二:(老司机)利用setup.py安装

安装方法三:(开发者)完全手动安装和配置

使用conda安装简单好操作,比较适合小白,但会依赖各种各样的包,所以我使用了第二种安装方法。


一、安装GetOrganelle软件

mkdir software          #如果在根目录(利用cd进入的目录)下创建目录 software
cd software              #进入目录 software
wget https://github.com/Kinggerm/GetOrganelle/archive/1.7.3.5.tar.gz  #下载 GetOrganelle版本为1.7.3.5的软件压缩包
tar xzf 1.7.3.5.tar.gz  #软件压缩包解压
mv GetOrganelle-1.7.3.5 GetOrganelle  #将文件夹或目录 GetOrganelle-1.7.3.5 更名为GetOrganelle


#如果需要GetOrganelle软件包自带程序SPAdes, Bowtie2, Blast,需要下载 GetOrganelleDep目录,参照以下步骤:

cd GetOrganelle         #进入目录 GetOrganelle
wget https://github.com/Kinggerm/GetOrganelleDep/releases/download/v1.6.0/v1.6.0-linux.tar.gz        #下载Linux版本的 GetOrganelleDep
tar xzf v1.6.0-linux.tar.gz        #解压压缩文件

注意:如果不使用GetOrganelleDep中带的SPAdes, Bowtie2, Blast程序,则需要自行安装或配置,并添加到环境变量。


#使用pip完成安装GetOrganelle

#如果python没有配置pip

wget https://bootstrap.pypa.io/get-pip.py      #下载get-pip.py 
python get-pip.py                            #安装get-pip.py 
pip install ./GetOrganelle                   #安装和配置GetOrganelle 
pip install psutil matplotlib                #安装和配置psutil和matplotlib包


二、配置GetOrganelle自带的数据库(SeedDatabase 和LabelDatabase

get_organelle_config.py --add embplant_pt       #配置高等植物质体基因组库
get_organelle_config.py --add embplant_mt       #配置高等植物线粒体基因组库
get_organelle_config.py --add other_pt            #配置其他植物质体基因组库
get_organelle_config.py --add fungus_mt           #配置真菌线粒体基因组库
get_organelle_config.py --add animal_mt          #配置动物线粒体基因组库
get_organelle_config.py --add embplant_nr        #配置高等植物核糖体DNA库
get_organelle_config.py --add fungus_nr           #配置真菌核糖体DNA库


三、测试

下载模拟 WGS 数据集

wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.1.fq.gz
wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.2.fq.gz

然后使用以下方法验证下载文件的完整性:md5sum

md5sum Arabidopsis_simulated.*.fq.gz
# 935589bc609397f1bfc9c40f571f0f19  Arabidopsis_simulated.1.fq.gz
# d0f62eed78d2d2c6bed5f5aeaf4a2c11  Arabidopsis_simulated.2.fq.gz
# Please re-download the reads if your md5 values unmatched above

然后做快速叶绿体组装(内存:~600MB,CPU时间:~60s):

get_organelle_from_reads.py -1 Arabidopsis_simulated.1.fq.gz -2 Arabidopsis_simulated.2.fq.gz -t 1 -o Arabidopsis_simulated.plastome -F embplant_pt -R 10

命令说明#-1和-2    正向和反向测序原始数据文件(如果是单向测序, -u)#-F          设定要组装的基因组类型*#-o          结果输出保存的目录(文件夹)名称#-R          提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)#-t          并行使用 CPU 的数量(多核可提速)#-k           调用SPAdes进行 denovo组装的k-mer,数值必须是奇数, 最大值是127


结果文件

attachments-2022-11-75GpMNvp6371b4461b209.png


参考:

https://mp.weixin.qq.com/s/0kIQtQvNQsACTRhdajd2lQ

https://mp.weixin.qq.com/s/hDS3ZDOnIFTBGMVs6-HKQw

https://github.com/Kinggerm/GetOrganelle


  • 发表于 2022-11-14 11:18
  • 阅读 ( 3118 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
星莓
星莓

生物信息工程师

58 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章