进行自比对去除冗余、blast去除细胞器的组装,如果大小还是没到预期标准可以采用purge_dups进行过滤:GitHub - dfguan/purge_dups: haplotypic duplication identification tool 不太清楚两个单倍型差异如何。如果两个单倍型差异较大,你直接用hifi组装的话会导致基因组偏大。
回答于 2天前
同一套数据不同软件组装结果也会有差异,不同数据本身也存在差异。如果ont数据是采用nextdenovo组装的,可以试着用 hifiasm再组一次。hifi数据普遍会比ont数据更碎一些,在去除冗余、细胞器基因组之后差距会缩小一点。
回答于 2024-12-18 11:05
图2前面都有“#”说明是gff的注释行,显示的内容是你这个gff的contig名称,空格键往下翻就能看到gff的文本内容。你用的这个水稻的gff应该不是我们提供的,我们提供的水稻gff是这样的:
回答于 2024-12-18 10:43
首先主要需要关注的结果是merqury_out.qv这个文件,我看你的一致性都很高,说明组装得蛮好的。 其次你提问的这个文件里面第二列表示的是“基因组中特有的kmer”,这个数目是0说明染色体所有的kmer都可以在测序数据里面找到,也是表示这个染色体组装一致性高的意思。
回答于 2024-12-13 16:00
高杂合基因组没有提及,只说了高度重复的话需要用ALLHIC的 prune这一步 nextdenevo数据矫正结果在 输出文件夹/02.cns_align/01.seed_cns.sh.work/seed_cns*/cns.fasta
回答于 2024-11-28 11:06
PASA运行的时候调用到Transdecoder这一步产生的报错,你需要确保输入进去的evm.gff3文件位置信息(phase)是正确的。检查一下这个gene:evm.Tu.chr01.1319 的cds是不是位置上有问题
回答于 2024-11-15 17:18
看一下比对的日志文件里面有没有报错说”将氨基酸序列(pep)转换为核酸序列(nuc)时发现了不一致性“,如果有的话,你找到对应基因ID的cds和蛋白序列检查他们之间是不是3倍关系。如果数量不多,可以把这样的基因对删除。 需要paraAT比对的log文件报错信息进一步确认。
回答于 2024-11-01 16:34