随机森林假设

机器算法验证 回归 分类 随机森林
2022-02-06 09:37:57

我是随机森林的新手,所以我仍在为一些基本概念而苦苦挣扎。
在线性回归中,我们假设独立观察、恒定方差……

  • 当我们使用随机森林时,我们做出的基本假设/假设是什么?
  • 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?
2个回答

感谢一个非常好的问题!我将尝试给出我的直觉。

为了理解这一点,请记住随机森林分类器的“成分”(有一些修改,但这是一般管道):

  1. 在构建单个树的每个步骤中,我们都会找到最佳的数据拆分
  2. 在构建树时,我们使用的不是整个数据集,而是引导样本
  3. 我们通过平均来聚合单个树的输出(实际上 2 和 3 意味着更通用的bagging 过程)。

假设第一点。并非总是能够找到最佳分割。例如,在以下数据集中,每个拆分都会给出一个错误分类的对象。 没有最佳分割的数据集示例

而且我认为这一点可能会令人困惑:确实,单个拆分的行为在某种程度上类似于朴素贝叶斯分类器的行为:如果变量是依赖的 - 决策树没有更好的拆分,朴素贝叶斯分类器也失败了(提醒一下:自变量是我们在朴素贝叶斯分类器中所做的主要假设;所有其他假设都来自我们选择的概率模型)。

但是这里有决策树的巨大优势:我们进行任何拆分并继续进一步拆分。对于以下拆分,我们将找到完美的分离(红色)。 决策边界示例

而且由于我们没有概率模型,只有二分法,我们根本不需要做任何假设。

那是关于决策树的,但它也适用于随机森林。不同之处在于,对于随机森林,我们使用 Bootstrap 聚合。它下面没有模型,它依赖的唯一假设是采样具有代表性但这通常是一个常见的假设。例如,如果一个类由两个组件组成,并且在我们的数据集中,一个组件由 100 个样本表示,另一个组件由 1 个样本表示 - 可能大多数单独的决策树只会看到第一个组件,而随机森林将错误分类第二个. 弱表示的第二个组件的示例

希望能给大家进一步的理解。

在 2010 年的一篇论文中,作者记录了当变量在多维统计空间中具有多重共线性时,随机森林模型无法可靠地估计变量的重要性。我通常在运行随机森林模型之前检查这一点。

http://www.esajournals.org/doi/abs/10.1890/08-0879.1