人工智能（AI）在微生物组中的应用-随机森林分类与回归预测

机器学习-随机森林微生物中的应用-分类与预测

机器学习或者人工智能（AI）是当前计算机领域研究的热点。然而，最近越来越多的研究者开始尝试将 AI 应用于另一个热门领域——微生物组研究。那么利用 AI 分析微生物组数据都做出了什么新结果呢？

1.微生物组或可预测人的实际年龄（南昌大学徐振江）

mSystems——[IF:6.519] Human Skin, Oral, and Gut Microbiomes Predict Chronological Age 02-12, doi: 10.1128/mSystems.00630-19

作者结合公开数据，用随机森林建立预测模型，评价粪便、唾液及皮肤（手和前额）样本微生物组预测成年人年龄的能力：其中皮肤微生物组可提供最佳的年龄预测(mean±SD为3.8±0.45年，口腔和肠道微生物组年龄预测mean±SD分别为4.5± 0.14和11.5 ±0.12年)；多个批次研究均表明肠道微生物组与实际年龄有关；手微生物组年龄预测模型可应用到前额微生物组年龄预测，反之亦然；与老年人富集的细菌相比，年轻人富集的细菌，丰度更高，且在多个群体中普遍存在。

2.NBT：随机森林准确预测籼粳稻亚种（白洋团队）

*NRT1.1B is associated with root microbiota composition and nitrogen use in field-grown rice

Nature Biotechnology [IF:35.724]

DOI：https://doi.org/10.1038/s41587-019-0104-4

作者采用机器学习的随机森林方法，利用地块II中的微生物组数据，在门、纲、目、科、属和OTUs层面分别建立预测模型，其中在科水平判别的准确率高达83.7%。用该模型预测地块I的样品预测准确率为86%，其中籼稻预测准确率为94.5%，粳稻的准确率为77.5%(图c)。为了进一步验证模型的普适性，作者在距离海南陵水农场2,482公里外北京的两个农场(昌平和上庄)种植的水稻品种IR24(籼稻)和ZH11(粳稻)进行预测，这些品种不包括在海南种植的95个品种中，结果仍然较为准确(图d)。以上结果表明，根系微生物可以作为生物标记来区分籼粳稻亚种。

3.20个微生物组成可预测婴儿肠道微生物年龄

美国贝勒医学院：nature[IF=43] https://doi.org/10.1038/s41586-018-0617-x

该研究随机选择150名足月、阴道分娩、母乳喂养的婴儿，每个婴儿至少10个样本，共2,871个粪便样本，通过R包“randomForest”建立肠道菌群与婴儿年龄的随机森林回归模型(random forest regression model)，最终找到了20个与婴儿年龄相关的重要OTU。上图a，通过交叉验证筛选了20个显著的OTU。上图b，热图展示这20个物种平均相对丰度随着婴儿年龄的变化趋势。总结上面的三篇文章都用到了机器学习中的随机森林方法，随机森林是机器学习的一种。利用随机森林分析可以帮我们找到数据中重要的特征：在微生物组中就是那些微生物组成可以作为特征进行各种预测；另外，随机森林可以利用这些重要特征构建模型用于分类预测（分类变量）或者回归预测（数值型变量）；

4.深入了解随机森林

随机森林（random forest）是一种组成式的有监督学习方法，可视为决策树的扩展。随机森林通过对对象和变量进行抽样构建预测模型，即随机生成多个决策树，就像他的名字，并依次对对象进行分类。最后将各决策树的分类结果汇总，所有预测类别中的众数类别即为随机森林所预测的该对象的类别，分类准确率提升。

要理解随机森林我们先来理解一下决策树(Decision Tree)：在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。分类树(决策树)是一种十分常用的分类方法。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来做预测。
例如下面就是一个决策树：你想买一套房子，但是你不知道怎么买，但是你可以根据一些条件做出决策：例如价格，地点，停车位等等。

以上可以看出，决策树是根据整个预测数据得到的一个预测模型，而随机森林是由很多这样的决策树组成，每一个决策树用了三个不同的预测变量（下图所示），那么这种方法有什么好处呢？这种方法可以避免过拟合（overfiting）：为了得到一致假设而使假设变得过度复杂称为过拟合(overfitting)，过拟合表现在训练好的模型在训练集上效果很好，但是在测试集上效果差。

4.1随机森林工作过程可概括如下：

随机森林分析一般将数据分成两组，一组用于构建模型，一组用于验证模型的准确性。最关键的是构建模型，这里以微生物数据为例给大家总结如下：
假设训练集中共有N个样本 M个物种，想要用物种的丰度信息预测某个指标（如上面介绍的文献，年龄？，籼稻还是粳稻？）。
（1）首先训练集中随机有放回地抽取n个样本构建决策树n；
（2）在每一个节点随机抽取m个物种（m<M），将其作为分割该节点的候选物种，每一个节点处的物种数应一致；
（3）重复（1）-（2）过程，获得大量决策树；这个过程称之为：bootstrap aggregating（bagging）。