对菌群16S rRNA基因进行高通量测序,无疑是微生物组研究中最基础也是最常用的研究方法,能以较高的性价比揭示菌群的具体物种组成,从而解答“群落中有谁在?”的基本问题。然而,很多时候,我们更希望知道菌群行使的具体功能,也就是解释“它们在干什么?”。对菌群进行宏基因组测序自然是最佳解决方案,但如此高大上的研究方法,投入成本相对较多,分析方法也相对复杂。如果仅仅知道菌群组成,该怎么把物种的“身份”和它的“功能”对应起来呢?
由此,一款名为PICRUSt的菌群代谢功能预测利器应运而生,相关论文发表在权威期刊《Nature Biotechnology》上[1]。
PICRUSt全称为“Phylogenetic Investigation of Communities byReconstruction of Unobserved States”,可以通过16S rRNA基因序列,预测对应的细菌和古菌的代谢功能谱。
有了PICRUSt,相当于在菌群的“组成”和“功能”之间搭起了一座桥,即使只有16S rRNA基因的测序结果,我们一样可以获得宏基因组级别的研究结果!
预测原理
软件原理很简单,它通过搭建一个“物种—基因”的关系网,从而通过OTU预测群落的基因类型与数量,最后达到功能分析的目的。具体可分为三个阶段:
1 构建“物种—基因”关系网
网络构建需要两份重要的文件作为支持:
已有参考基因组细菌或古细菌中每个基因家族的基因数量(通过IMG数据库获得);
和通过物种所构建的进化树(通过greengene数据库获得)。
通过这两个数据,软件就可以建立一个已知物种基因信息的进化树。
2 实现物种输入到基因输出的转化
前面已经根据已知的物种建立起一个带有基因信息(种类和数量)的进化树,通过未知物种的序列信息寻找其在进化树中的亲缘物种,从而根据亲缘物种的基因信息预测未知物种的基因信息。由于微生物的变异速度极快,大量的HGT和基因丢失现象可能会使这种预测方式会存在一定的偏差,但由于近源物种间的主要基因信息还是非常接近,因此预测结果可靠性还是极高(下文会有证明)。
3 进行基因功能注释
PICRUSt完成宏基因组的预测之后,可以利用软件结合KEGG,COG和Pfam三大数据库进行注释,从而赋予基因信息生物学意义。
2、PICRUSt的特点
PICRUSt算法的一大特点,就是基于Greengenes的16S rRNA基因全长序列数据库,对菌群测序结果进行“封闭式”参考OTU划分。PICRUSt开发者对古菌和细菌域的大多数模式微生物的功能进行预测,让人欣喜的是,绝大多数的微生物预测结果与真实的基因功能谱非常接近(古菌预测精确度为0.94 ± 0.04,n = 103;细菌为0.95 ± 0.05,n =2487)。也就是说,绝大多数情况下,PICRUSt的预测效果可靠性较高。
当然,若测序序列与Greengenes数据库中没有同源物种的参考序列,则对应的物种将无法被预测。也就是说,原始数据在分析过程中会有一定损失。此外,PICRUSt的特点也表明,它只能对已知微生物的已知功能进行功能预测,所以目前并不能完全代替宏基因组研究,但可以看作宏基因组研究的“近似”结果,在经费、资源有限的情况下,不失为一种理想的选择。
3、PICRUSt的应用
PICRUSt对于菌群研究贡献极大。首先,PICRUSt能从菌群组成数据解读潜在的功能,可谓充分发挥了16S rRNA基因测序简单、快速、物美价廉的优势;其次,PICRUSt对菌群功能的预测,可以帮助指导后续宏基因组Denovo鸟枪法测序的实验设计,更合理地筛选用于后续研究的样本。
同时,PICRUSt分析的操作相当便捷,只需对测序数据进行“封闭式”参考OTU划分,并将得到的OTU丰度矩阵上传至Galaxy在线分析平台(http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=PICRUSt_normalize),按提示操作就能得到预测结果。
4、16S+PICRUSt,研究新趋势
PICRUSt这一方法横空出世后,已有越来越多的研究开始采用这一方法预测菌群组成数据,相关论文发表数量逐年增长,表明该方法已得到大家广泛的认可。16S+PICRUSt,已成为发表高水平论文的必备技能;同时与宏基因组分析相比,更方便快捷,成本也更低。
2016年发表在微生态学旗舰期刊《TheISME Journal》的《Cigarettesmoking and the oral microbiome in a large study of American adults》[2]中,作者就通过PICRUSt预测了吸烟人群和未吸烟人群的口腔菌群,发现共有83个基因功能代谢通路存在显著差异,吸烟大大降低了碳水化合物和能量代谢、异型生物质降解等代谢通路的含量。
5、结语
PICRUSt虽然厉害,但并不是万能,一方面由于它是基于16S rRNA基因的参考序列库,因此尚无法对真菌群落进行功能预测,而预测过程也会造成原始数据的部分损失,对于不同来源的菌群的预测效果也有所差异(一般对于人源微生物组的预测效果最好);同时,它并不能完全代替宏基因组研究(目前只能对已知微生物的已知功能进行功能预测),但可以对后续实验设计作出指导。
参考文献
1.Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, et al. (2013)Predictive functional profiling of microbial communities using 16S rRNA markergene sequences.NatureBiotechnology31: 814-+.
2. Wu J, Peters BA, DominianniC, Zhang Y, Pei Z, et al. (2016) Cigarette smoking and the oral microbiome in alarge study of American adults.ISME J10.1038/ismej.2016.37.