老师,我在做泛基因家族成员存在缺失分析时,做统计各个样本家族成员数量,及根据数量对基因组进行排序时候,由于我原始得到的maize.WRKYgene.list文件里的基因名称,和ID.txt文件里的基因组名称无法链接,有很多基因组无法识别出成员数量,(也就是因为这一步,我才把我上一个问题提的把基因名称及ID名称改掉了),请问怎么修改指令?

老师,我在做泛基因家族成员存在缺失分析时,做统计各个样本家族成员数量,及根据数量对基因组进行排序时候,由于我原始得到的maize.WRKYgene.list文件里的基因名称,和ID.txt文件里的基因组名称无法链接,有很多基因组无法识别出成员数量,(也就是因为这一步,我才把我上一个问题提的把基因名称及ID名称改掉了),请问怎么修改指令?

我得到的基因家族列表:

attachments-2025-04-HcYxplD667f1e9d18567d.pngattachments-2025-04-FhM8BocU67f1ea7fea865.pngattachments-2025-04-gdLNbfym67f1ea8a76ddf.png

我的ID.txt是attachments-2025-04-cpbkZu9W67f1ea932292f.pngattachments-2025-04-exQB3YlN67f1eaa9aa23d.pngC01对应的原始GFF文件里基因名就是C1_00G000006,xiaomi对应的基因名是Si9g11260,Yugu1_T2T.genome对应的基因名是Seita.9G123000_Yugu1_T2T.genome。   (我要修改ID.txt文件吗?)

请先 登录 后评论

2 个回答

每天学习一点点

同学,其实前面已经给你说过解决办法了,最好的办法就是你重新跑流程,不要乱改你的基因id,你改了之后我们也很难改流程去对你的数据进行调试,你可以把构建泛基因列表的代码这里改一下,然后回到你修改id之前重新跑一下,总之不要改动你原始的基因id,不然后面对应起来就是很麻烦,你按照流程跑:

# 把第二列的前缀去掉
awk -F'\t' 'BEGIN{OFS="\t"} { if (match($2, /_/)) {$2 = substr($2, RSTART+1)};print}' last.gene.pair.txt|\
        sed "s/ /\t/g" | sed "1i\PangeneID\\tgeneID\\tSpieces\\tChrom\\tStart\\tEnd" > final.last.gene.pair.txt
请先 登录 后评论
Connie

attachments-2025-04-jWbTrpwt67f47d8e7346e.pngattachments-2025-04-TMa5vtpv67f47da470626.pngattachments-2025-04-xDOmIldG67f47db479448.pngattachments-2025-04-Jm2XF1jT67f47dc88a7b9.png

请先 登录 后评论
  • 2 关注
  • 0 收藏,376 浏览
  • Connie 提出于 2025-04-06 10:48

相似问题