forest专注森林克洛格森林

作者：

风君子

在

运维

随机森林是一种由决策树组成的集成算法，通常具有良好的性能。

本文介绍随机森林的基本概念、4个结构步骤、4种方式的对比评价、10个优缺点和4个应用方向。

什么是随机森林？

随机森林属于综合学习中的baggingbootstrapaggregation的简称)方法。用图表示他们的关系如下。

决策树诊断树

在解释随机森林之前，必须先提到决策树。决策树是一种非常简单的算法，他的解释力很强，也符合人类的直觉思维。这是一种基于if-then-else规则的监控学习算法，上面的图像可以直观地表达决策树的逻辑。

有关决策树的详细信息，请参阅《一文看懂决策树 Decision tree（3个步骤+3种典型算法+10个优缺点）》

随机森林随机森林|射频

随机森林由许多决策树组成，不同的决策树之间没有关联。

我们进行分类任务时，如果有新的输入样本，让森林内的一个决策树分别进行判断和分类，各决策树得到自己的分类结果，决策树的分类结果中哪个分类最多，随机森林将该结果作为最终结果。

构建随机森林的四个步骤

如果有n个样本，则有n个返回的随机选择样本。每次随机选择一个样本，返回继续选择)。这个被选择的n个样本用于训练决策树作为决策树的根节点的样本。每个样本有m个属性时，决策树的各节点需要分裂时，从该m个属性中随机提取m个属性，满足条件mmm。然后，从这m个属性中使用某种战略，例如信息增益，选择一个属性作为该节点的分裂属性。在形成决策树的过程中，每个节点按照步骤2分裂。其次如果该节点选择的属性之一是父节点分裂后立即使用的属性，则不难理解，该节点已经到达叶节点，不需要继续分裂)。直到不能再分裂为止。注意在整个决策树形成过程中没有进行剪枝。按照步骤1￣3制作大量决策树后，构成随机森林。

随机森林的优缺点

好处

它可以发出非常高维的多特征的)数据，而且不降低维度，不选择特征就可以判断特征的重要度，不同特征之间的相互影响比拟合训练的速度更难，更容易制作并行化方法，并且实际上即使失去了大部分特征，也能够维持精度。缺点

随机森林被证明过度符合噪声大的分类和回归问题。对于具有不同值属性的数据，由于取值属性对随机森林的影响更大，随机森林用这种数据产出的属性权重是不可靠的随机森林的4种实现方法的比较测试

随机森林是常用的机器学习算法，既可以用于分类问题，也可以用于回归问题。本文对scikit-learn、Spark MLlib、DolphinDB、XGBoost四个平台的随机森林算法的实现进行了比较测试。评价指标包括内存使用量、执行速度和分类的准确性。

测试结果如下。

忽略测试过程和说明，有兴趣的人可以看原文《随机森林算法 4 种实现方法对比测试：DolphinDB 速度最快，XGBoost 表现最差》

森林的四个应用方向

随机森林可以在很多地方使用：

学习无离散值向分类连续值的回归监测的聚类异常点检测

专注克洛森林

用哪个弄湿

少儿国寿福庆典版优缺点在哪？不足和亮点各参半

狗狗吃卫生巾怎么办

房贷二次扣款会影响征信吗？这是很有可能的

2020最新自助免费申请Office365教育版，免费5TOneDrive云盘详细图文教程

MacBook怎么绕过BootCamp安装Win10双系统

上海电信千兆宽带速度究竟如何上海电信千兆宽带

国内知名的前端博客

域名为什么会被墙如何检测域名是否被墙域名被墙如何处理

forest专注森林克洛格森林

更多文章

评论

发表回复 取消回复

站内搜索

标签云

热门文章

友情链接

发表回复取消回复