GetOrganelle软件是一款由郁文斌老师开发的一套全新的细胞器基因组组装工具,可以对大规模的细胞器基因组进行快速、准确及自动化组装。
原作推荐了三种安装方法:
安装方法一:(小白)利用Conda安装
安装方法二:(老司机)利用setup.py安装
安装方法三:(开发者)完全手动安装和配置
使用conda安装简单好操作,比较适合小白,但会依赖各种各样的包,所以我使用了第二种安装方法。
mkdir software #如果在根目录(利用cd进入的目录)下创建目录 software
cd software #进入目录 software
wget https://github.com/Kinggerm/GetOrganelle/archive/1.7.3.5.tar.gz #下载 GetOrganelle版本为1.7.3.5的软件压缩包
tar xzf 1.7.3.5.tar.gz #软件压缩包解压
mv GetOrganelle-1.7.3.5 GetOrganelle #将文件夹或目录 GetOrganelle-1.7.3.5 更名为GetOrganelle
#如果需要GetOrganelle软件包自带程序SPAdes, Bowtie2, Blast,需要下载 GetOrganelleDep目录,参照以下步骤:
cd GetOrganelle #进入目录 GetOrganelle
wget https://github.com/Kinggerm/GetOrganelleDep/releases/download/v1.6.0/v1.6.0-linux.tar.gz #下载Linux版本的 GetOrganelleDep
tar xzf v1.6.0-linux.tar.gz #解压压缩文件
注意:如果不使用GetOrganelleDep中带的SPAdes, Bowtie2, Blast程序,则需要自行安装或配置,并添加到环境变量。
#如果python没有配置pip
wget https://bootstrap.pypa.io/get-pip.py #下载get-pip.py
python get-pip.py #安装get-pip.py
pip install ./GetOrganelle #安装和配置GetOrganelle
pip install psutil matplotlib #安装和配置psutil和matplotlib包
get_organelle_config.py --add embplant_pt #配置高等植物质体基因组库
get_organelle_config.py --add embplant_mt #配置高等植物线粒体基因组库
get_organelle_config.py --add other_pt #配置其他植物质体基因组库
get_organelle_config.py --add fungus_mt #配置真菌线粒体基因组库
get_organelle_config.py --add animal_mt #配置动物线粒体基因组库
get_organelle_config.py --add embplant_nr #配置高等植物核糖体DNA库
get_organelle_config.py --add fungus_nr #配置真菌核糖体DNA库
下载模拟 WGS 数据集:
wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.1.fq.gz wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.2.fq.gz
然后使用以下方法验证下载文件的完整性:md5sum
md5sum Arabidopsis_simulated.*.fq.gz
# 935589bc609397f1bfc9c40f571f0f19 Arabidopsis_simulated.1.fq.gz
# d0f62eed78d2d2c6bed5f5aeaf4a2c11 Arabidopsis_simulated.2.fq.gz
# Please re-download the reads if your md5 values unmatched above
然后做快速叶绿体组装(内存:~600MB,CPU时间:~60s):
get_organelle_from_reads.py -1 Arabidopsis_simulated.1.fq.gz -2 Arabidopsis_simulated.2.fq.gz -t 1 -o Arabidopsis_simulated.plastome -F embplant_pt -R 10
命令说明#-1和-2 正向和反向测序原始数据文件(如果是单向测序, -u)#-F 设定要组装的基因组类型*#-o 结果输出保存的目录(文件夹)名称#-R 提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)#-t 并行使用 CPU 的数量(多核可提速)#-k 调用SPAdes进行 denovo组装的k-mer,数值必须是奇数, 最大值是127
结果文件
参考:
https://mp.weixin.qq.com/s/0kIQtQvNQsACTRhdajd2lQ
https://mp.weixin.qq.com/s/hDS3ZDOnIFTBGMVs6-HKQw
https://github.com/Kinggerm/GetOrganelle
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!