老师您好,我在做泛基因家族分析中存在缺失分析得到的基因家族泛基因编号文件和泛基因列表一样,不知道为什么

老师您好,我在做泛基因家族分析中存在缺失分析,下面是基因家族列表attachments-2025-04-P9F2VTbs67ed1b0299585.png
这是通过泛基因集构建得到的泛基因列表,attachments-2025-04-KsktpYTl67ed1b1dc9249.png

下面是整理格式后的结果attachments-2025-04-Sy2j88RA67ed1b4e39e16.png


下一步是获得该家族基因的泛基因编号,grep -f foxtail_millet.GRASgene.list foxtail_millet.pan-genes.list|sort|uniq > foxtail_millet.GRASgene.pan-genes.list

下面是结果,但该文件和上面 foxtail_millet.pan-genes.list文件大小一模一样,不知道是为什么?我现在有个变动是,获得的泛基因列表中,C01基因组名称写的是C1,这可能是之前提取蛋白时候它自动命名省去了,但是一个基因组(同样,还有C2-C9,L1-L9,Q1-Q9)。基因家族列表中,C01_C01_00G00000001,之前是C01_C1_00G00000001,在做存在缺失时,我都把他们改了,我现在该怎么办啊

attachments-2025-04-pAV9AP0467ed1b3c8b8a2.png

请先 登录 后评论

1 个回答

每天学习一点点

所以你在未做任何处理之前,你的gff文件里面基因ID的格式就是基因组名+基因id这样的是吗,我举个例子,比如说你的原始gff文件里面,你的基因编号就是C01_00G00000006对吗,要是你描述的这种情况,你需要把这条指令改成这样:awk 'FNR>1{print $1"\t"$3"_"$2"_"$3}' final.last.gene.pair.txt > yourfile.pan-genes.list

但是我们在做基因家族鉴定的时候,不是把基因组信息加在后面的吗,这是你自己的操作?我理解的如果你的原始基因id应该是这个C1_00G00000001,如果你按照我们的课程坐下来,你鉴定出来的基因id应该为:C1_00G00000001_C01,如果是你自己的行为你还是不要乱改脚本

还有你提到的这一点“之前是C01_C1_00G00000001,在做存在缺失时,我都把他们改了,我现在该怎么办啊”你不能随意的改动你原始的基因id,不然后面就会出现对不上的情况,你需要自己改回来,不然后面会出现很多类似的问题

请先 登录 后评论