基于perl 提取基因家族内的串联重复基因对

基于MCScanX串联重复分析结果中的tandem文件，提取属于特定基因家族内的串联重复基因对。

脚本文件名

get_tandem_gene.pl ，运行命令为：

perl get_tandem_gene.pl  -id hqs.id  -tandem ganlan.tandem  -name hqs -od ./

命令解释：

get_tandem_gene.pl脚本文件名，最后写明全路径

-id 输入基因家族基因id，文件格式如下：

Bol014029
Bol014986
Bol021982
Bol023208
Bol005493
Bol008082
Bol021317
Bol021325
Bol033054
Bol033162

-tandem 输入MCScan的串联重复结果文件tandem( , 分隔），文件格式如下：

Bol004372,Bol004373
Bol004375,Bol004376
Bol004405,Bol004406
Bol004463,Bol004462
Bol004492,Bol004491
Bol004611,Bol004612
Bol004624,Bol004625
Bol004632,Bol004633
Bol004672,Bol004673
Bol004680,Bol004681

-name 输出文件名前缀

-od 输出路径

输出文件格式如下（\t 分隔）：

Bol026623       Bol026622
Bol038386       Bol038387
Bol044343       Bol044344

全部perl 脚本内容如下：

use Data::Dumper;
use Getopt::Long;
use strict;
use Cwd qw(abs_path getcwd);


my %opts;

GetOptions (\%opts,"id=s","tandem=s","od=s","name=s"); 

my $od=$opts{od};
$od||=getcwd;
$od=abs_path($od);
unless(-d $od){    mkdir $od;}

####get target gene id

my $gene;
my @info;
my %hashG;
open (IN,"$opts{id}") || die "open $opts{id} failed\n";
while(<IN>){
    chomp;
    @info=split(/\s+/,$_);
    $gene=$info[0];
    $hashG{$gene}=$gene;
}
close(IN);


#######select tandem


my $Agene;
my $Bgene;
open(OUT,">$od/$opts{name}.tandem")||die "open $od/$opts{name}.tandem failed\n";
open (IN,"$opts{tandem}") || die "open $opts{tandem} failed\n";
while(<IN>){
    chomp;
    @info=split(/,/,$_);
    $Agene=$info[0];
    $Bgene=$info[1];
    if(exists $hashG{$Agene} && exists $hashG{$Bgene}){
        print OUT $Agene."\t".$Bgene."\n";
    }

}
close(IN);
close(OUT);

基于perl 提取基因家族内的串联重复基因对

如果脚本提取没有结果：1.本身基因家族没有串联重复；2.如果是在windows当中粘贴了一下基因家族的ID列表，也没有结果，这里可能会有bug，建议手动excel确认一下是否真的没有串联重复基因。

MCScanX分析参考课程：

基因家族分析实操课程、基因家族文献思路解读

更多生物信息课程：

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »