16S扩增子测序后的PICRUSt预测功能分析原理

16S扩增子测序后的PICRUSt预测功能分析原理
对菌群16S rRNA基因进行高通量测序,无疑是微生物组研究中最基础也是最常用的研究方法,能以较高的性价比揭示菌群的具体物种组成,从而解答“群落中有谁在?”的基本问题。然而,很多时候,我们更希望知道菌群行使的具体功能,也就是解释“它们在干什么?”。对菌群进行宏基因组测序自然是最佳解决方案,但如此高大上的研究方法,投入成本相对较多,分析方法也相对复杂。如果仅仅知道菌群组成,该怎么把物种的“身份”和它的“功能”对应起来呢?
由此,一款名为PICRUSt的菌群代谢功能预测利器应运而生,相关论文发表在权威期刊《Nature Biotechnology》上[1]。
PICRUSt全称为“Phylogenetic Investigation of Communities byReconstruction of Unobserved States”,可以通过16S rRNA基因序列,预测对应的细菌和古菌的代谢功能谱。

有了PICRUSt,相当于在菌群的“组成”和“功能”之间搭起了一座桥,即使只有16S rRNA基因的测序结果,我们一样可以获得宏基因组级别的研究结果!

 预测原理

  软件原理很简单,它通过搭建一个“物种—基因”的关系网,从而通过OTU预测群落的基因类型与数量,最后达到功能分析的目的。具体可分为三个阶段:

  1  构建“物种—基因”关系网

  网络构建需要两份重要的文件作为支持:

已有参考基因组细菌或古细菌中每个基因家族的基因数量(通过IMG数据库获得);

和通过物种所构建的进化树(通过greengene数据库获得)。

  通过这两个数据,软件就可以建立一个已知物种基因信息的进化树。

  2  实现物种输入到基因输出的转化

  前面已经根据已知的物种建立起一个带有基因信息(种类和数量)的进化树,通过未知物种的序列信息寻找其在进化树中的亲缘物种,从而根据亲缘物种的基因信息预测未知物种的基因信息。由于微生物的变异速度极快,大量的HGT和基因丢失现象可能会使这种预测方式会存在一定的偏差,但由于近源物种间的主要基因信息还是非常接近,因此预测结果可靠性还是极高(下文会有证明)。

  3  进行基因功能注释

  PICRUSt完成宏基因组的预测之后,可以利用软件结合KEGG,COG和Pfam三大数据库进行注释,从而赋予基因信息生物学意义。


attachments-2020-09-GSs4loj15f5445cf5f885.png

2、PICRUSt的特点
PICRUSt算法的一大特点,就是基于Greengenes的16S rRNA基因全长序列数据库,对菌群测序结果进行“封闭式”参考OTU划分。PICRUSt开发者对古菌和细菌域的大多数模式微生物的功能进行预测,让人欣喜的是,绝大多数的微生物预测结果与真实的基因功能谱非常接近(古菌预测精确度为0.94 ± 0.04,n = 103;细菌为0.95 ± 0.05,n =2487)。也就是说,绝大多数情况下,PICRUSt的预测效果可靠性较高。
    当然,若测序序列与Greengenes数据库中没有同源物种的参考序列,则对应的物种将无法被预测。也就是说,原始数据在分析过程中会有一定损失。此外,PICRUSt的特点也表明,它只能对已知微生物的已知功能进行功能预测,所以目前并不能完全代替宏基因组研究,但可以看作宏基因组研究的“近似”结果,在经费、资源有限的情况下,不失为一种理想的选择。
3、PICRUSt的应用
PICRUSt对于菌群研究贡献极大。首先,PICRUSt能从菌群组成数据解读潜在的功能,可谓充分发挥了16S rRNA基因测序简单、快速、物美价廉的优势;其次,PICRUSt对菌群功能的预测,可以帮助指导后续宏基因组Denovo鸟枪法测序的实验设计,更合理地筛选用于后续研究的样本。
同时,PICRUSt分析的操作相当便捷,只需对测序数据进行“封闭式”参考OTU划分,并将得到的OTU丰度矩阵上传至Galaxy在线分析平台(http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=PICRUSt_normalize),按提示操作就能得到预测结果。
4、16S+PICRUSt,研究新趋势
PICRUSt这一方法横空出世后,已有越来越多的研究开始采用这一方法预测菌群组成数据,相关论文发表数量逐年增长,表明该方法已得到大家广泛的认可。16S+PICRUSt,已成为发表高水平论文的必备技能;同时与宏基因组分析相比,更方便快捷,成本也更低。
2016年发表在微生态学旗舰期刊《TheISME Journal》的《Cigarettesmoking and the oral microbiome in a large study of American adults》[2]中,作者就通过PICRUSt预测了吸烟人群和未吸烟人群的口腔菌群,发现共有83个基因功能代谢通路存在显著差异,吸烟大大降低了碳水化合物和能量代谢、异型生物质降解等代谢通路的含量。
5、结语
PICRUSt虽然厉害,但并不是万能,一方面由于它是基于16S rRNA基因的参考序列库,因此尚无法对真菌群落进行功能预测,而预测过程也会造成原始数据的部分损失,对于不同来源的菌群的预测效果也有所差异(一般对于人源微生物组的预测效果最好);同时,它并不能完全代替宏基因组研究(目前只能对已知微生物的已知功能进行功能预测),但可以对后续实验设计作出指导。
参考文献
1.Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, et al. (2013)Predictive functional profiling of microbial communities using 16S rRNA markergene sequences.NatureBiotechnology31: 814-+.
2. Wu J, Peters BA, DominianniC, Zhang Y, Pei Z, et al. (2016) Cigarette smoking and the oral microbiome in alarge study of American adults.ISME J10.1038/ismej.2016.37.


  • 发表于 2020-09-06 10:07
  • 阅读 ( 11078 )
  • 分类:宏基因组

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

689 篇文章

作家榜 »

  1. omicsgene 689 文章
  2. 安生水 340 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. 红橙子 78 文章
  6. xun 76 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章