作共线性分析的时候，用水稻的bed文件，无法获得水稻的cds，是不是因为水稻的cds.fa文件内是os08t0254300-00，而不像拟南芥的at012358.1这样后缀不一样，所有无法过去它的cds

5 作共线性分析的时候，用水稻的bed文件，无法获得水稻的cds，是不是因为水稻的cds.fa文件内是os08t0254300-00，而不像拟南芥的at012358.1这样后缀不一样，所有无法过去它的cds

回答问题即可获得 10 经验值，回答被采纳后即可获得 10 金币。

运行这个命令的时候perl get_fa_by_id_from_bed.pl ATH.bed Arabidopsis_thaliana.TAIR10.cds.all.fa ATH.cds

脚本：#北京组学生物科技有限公司

#email: huangls@biomics.com.cn

die "perl $0 <idlist> <fa> <OUT>" unless ( @ARGV == 3 );

use Math::BigFloat;

use Bio::SeqIO;

use Bio::Seq;

#读入蛋白序列

$in = Bio::SeqIO->new(

-file => "$ARGV[1]",

-format => 'Fasta'

);

#输出蛋白序列：

$out = Bio::SeqIO->new(

-file => ">$ARGV[2]",

-format => 'Fasta'

);

#读取需要提取基因ID

my %keep = ();

open IN, "$ARGV[0]" or die "$!";

while (<IN>) {

chomp;

next if /^#/;

my @a = split /\t/;

$keep{"$a[3].1"}=1; ##注意提取第一个转录本

}

close(IN);

#输出想要的基因的序列

while ( my $seq = $in->next_seq() ) {

my ( $id, $sequence, $desc ) = ( $seq->id, $seq->seq, $seq->desc );

if ( exists $keep{$id} ) {

$out->write_seq($seq);

}

$in->close();

$out->close();

输入文件为：Oryza_sativa.IRGSP-1.0.cds.all.fa 和os.bed

结果：无法获得os的CDS序列

1 条评论

默认排序时间排序

1 个回答

omicsgene - 生物信息 2018-12-10 21:52

擅长：重测序,遗传进化,转录组,GWAS

看你运行的命令是拟南芥，的应该是没有问题，但是你贴的都是白菜的文件？肯定不对了；

注意ID对应：这里加了.1 在拟南芥所有基因ID的后面加了.1 所有可以用基因ID，提取出拟南芥的基因对应的第一一个转录本序列；

你可以观察转录本ID和基因ID之间的差别，相应修改下面地方的代码：

基因家族分析这部分已经更新一个课程解决这个问题，如下：

建议学习perl课程：《perl入门》《perl高级编程》

5 作共线性分析的时候，用水稻的bed文件，无法获得水稻的cds，是不是因为水稻的cds.fa文件内是os08t0254300-00，而不像拟南芥的at012358.1这样后缀不一样，所有无法过去它的cds

1 个回答

相似问题