随机森林和决策树的区别

机器算法验证 机器学习 随机森林 大车
2022-01-23 00:50:15

我被引导使用一些统计和机器学习技术,尤其是随机森林方法。

我需要了解随机森林和决策树之间的区别,以及随机森林与决策树相比有哪些优势。

3个回答

你是对的,这两个概念是相似的。正如名称“树”和“森林”所暗示的那样,随机森林本质上是决策树的集合。决策树建立在整个数据集上,使用所有感兴趣的特征/变量,而随机森林随机选择观察值/行和特定特征/变量来构建多个决策树,然后对结果进行平均。使用这种方法构建大量树后,每棵树“投票”或选择类,简单多数票获得最多票的类是“获胜者”或预测类。当然还有一些更详细的差异,但这是主要的概念差异。

在给定的训练数据集上使用决策树模型时,准确性会随着越来越多的拆分而不断提高。除非您使用交叉验证(在训练数据集上),否则您可以轻松地过度拟合数据并且不知道何时越线。简单决策树的优点是模型易于解释,您知道使用什么变量以及该变量的值来分割数据和预测结果。

随机森林就像一个黑匣子,按照上面的答案工作。这是一片你可以建造和控制的森林。您可以指定森林中所需的树数(n_estimators),还可以指定每棵树中要使用的最大特征数。但是你无法控制随机性,你无法控制森林中哪个特征属于哪棵树,你无法控制哪个数据点属于哪棵树。随着树木数量的增加,准确性不断提高,但在某个点变得恒定。与决策树不同,它不会创建高度偏差的模型并减少方差。

何时使用决策树:

  1. 当您希望模型简单且可解释时
  2. 当你想要非参数模型时
  3. 当您不想担心特征选择或正则化或担心多重共线性时。
  4. 如果您确定验证或测试数据集将成为训练数据集的子集或几乎重叠而不是意外,则可以过度拟合树并构建模型。

何时使用随机森林:

  1. 当您不太关心解释模型但想要更好的准确性时。
  2. 随机森林将减少误差的方差部分而不是偏差部分,因此在给定的训练数据集上,决策树可能比随机森林更准确。但是在一个意想不到的验证数据集上,随机森林总是在准确性方面获胜。

随机森林算法是一种集成学习算法这意味着它使用多个决策树进行预测。使用集成算法的优点是它可以减少预测的方差,使预测更加准确。随机森林算法通过平均各个决策树的预测来实现这一点。

决策树算法是一种监督学习算法。这意味着它需要一个训练数据集才能学习如何进行预测。使用监督学习算法的优势在于它可以学习数据中的复杂模式。使用监督学习算法的缺点是训练时间比无监督学习算法要长。