xun 的回答 - 组学大讲堂问答社区

0 赞同

宏基因组基因定量salmon

他说的索引是这个RAPMAP格式,但是这个应该是老版本salmon的,你试试重新构建一下缩影,用这个1.9版本的,要是还有问题就去我们那个docker里跑这一步,有的时候依赖处理不了换个环境就好

回答于 5天前

0 赞同

想请教一下 cds.TEM 数据，然后也得到了cds里的名和KO0001表对...

用data.table包的fread,读的很快,一百万行大概几秒就行如果数据再大,上亿行,就逐行读取吧

回答于 2025-03-03 11:16

0 赞同

请问这个是中间文件吗，注释成功后，就可以删除掉，节约空间，是...

对的,其实需要的文件没几个,你看看后续如果没用到,那就可以删掉的

回答于 2025-02-28 11:37

0 赞同

组装后的cds.fa文件进行Kegg注释

KofamKOALA和付费购买整个数据库,对于pathway部分没啥区别eggnog侧重于进化关系来推功能,一般宏基因用这个结果会好一点,坏处是他的数据库老一点KofamKOALA用的hmm,特异性高,更严格保守代谢途径基本差不多,物种特异的功能eggnog结果多一点,收费的一般用不上,对富集基本没影响

回答于 2025-02-27 16:48

0 赞同

请问可以同时运行2个terminal吗，在内存和存储还有cpu都有剩余很...

当然可以,你这样是更有效率的,我这里用的是循环,所以资源占得少,后面应该会讲到并行,如果是并行运行的,资源会占得非常多,那就不建议这样操作了

回答于 2025-02-26 16:13

0 赞同

请问这2个sam文件对后续有什么帮助吗占用内存太大想删掉不...

可以删除,这些是中间文件,储存序列的比对信息的

回答于 2025-02-24 16:58

0 赞同

想咨询一下，我有1批宏基因组数据，可不可以样本对半，分成2次进...

这个一般来说不用,你分两次处理那差异更大,后面更没有可比性了,单样本处理本来就不太关心大家的关联性的如果是完全不相干的那直接分开做就行

回答于 2025-02-19 16:39

0 赞同

CAZy注释阶段，hmmer的太慢占用cpu只有一直很少

hmmscan多线程效率很低,可以调低一点线程数反而会快一点

回答于 2025-02-19 13:18

0 赞同

单独的教程没有,但是逻辑不复杂,以kegg为例,主要难点在于碳氮磷硫功能相关通路的不一定找的全,比如碳代谢应该有很多相关的,比如Carbohydrate metabolism应该基本相关的,但是比如Energy metabolism里的Carbon fixation by Calvin cycle和Methane metabolism 应该也是,可能要自己筛选一下,而且需要统一,比如Carbohydrate meta...

回答于 2025-02-10 14:40

0 赞同

宏基因组分析，用来分组的metadata格式具体是什么？

我们有提供一个示例文件,你把那个文件拷贝到excel里,然后把分组和样本名修改成自己的,其余的不用变需要修改的只有第一列和第四列,其他的是占位的

回答于 2025-01-08 09:27

46 个回答

宏基因组基因定量salmon

想请教一下 cds.TEM 数据，然后也得到了cds里的名和KO0001表对...

请问这个是中间文件吗，注释成功后，就可以删除掉，节约空间，是...

组装后的cds.fa文件进行Kegg注释

请问可以同时运行2个terminal吗，在内存和存储还有cpu都有剩余很...

请问这2个sam文件对后续有什么帮助吗占用内存太大想删掉不...

想咨询一下，我有1批宏基因组数据，可不可以样本对半，分成2次进...

CAZy注释阶段，hmmer的太慢占用cpu只有一直很少

请问我想注释出碳氮磷硫功能基因及丰度，有什么教程吗

宏基因组分析，用来分组的metadata格式具体是什么？