我是随机森林的新手,所以我仍在为一些基本概念而苦苦挣扎。
在线性回归中,我们假设独立观察、恒定方差……
- 当我们使用随机森林时,我们做出的基本假设/假设是什么?
- 就模型假设而言,随机森林和朴素贝叶斯之间的主要区别是什么?
我是随机森林的新手,所以我仍在为一些基本概念而苦苦挣扎。
在线性回归中,我们假设独立观察、恒定方差……
感谢一个非常好的问题!我将尝试给出我的直觉。
为了理解这一点,请记住随机森林分类器的“成分”(有一些修改,但这是一般管道):
假设第一点。并非总是能够找到最佳分割。例如,在以下数据集中,每个拆分都会给出一个错误分类的对象。
而且我认为这一点可能会令人困惑:确实,单个拆分的行为在某种程度上类似于朴素贝叶斯分类器的行为:如果变量是依赖的 - 决策树没有更好的拆分,朴素贝叶斯分类器也失败了(提醒一下:自变量是我们在朴素贝叶斯分类器中所做的主要假设;所有其他假设都来自我们选择的概率模型)。
但是这里有决策树的巨大优势:我们进行任何拆分并继续进一步拆分。对于以下拆分,我们将找到完美的分离(红色)。
而且由于我们没有概率模型,只有二分法,我们根本不需要做任何假设。
那是关于决策树的,但它也适用于随机森林。不同之处在于,对于随机森林,我们使用 Bootstrap 聚合。它下面没有模型,它依赖的唯一假设是采样具有代表性。但这通常是一个常见的假设。例如,如果一个类由两个组件组成,并且在我们的数据集中,一个组件由 100 个样本表示,另一个组件由 1 个样本表示 - 可能大多数单独的决策树只会看到第一个组件,而随机森林将错误分类第二个.
希望能给大家进一步的理解。
在 2010 年的一篇论文中,作者记录了当变量在多维统计空间中具有多重共线性时,随机森林模型无法可靠地估计变量的重要性。我通常在运行随机森林模型之前检查这一点。