数据挖掘 - 随机森林的无偏性 - 吾爱随笔录

假设我试图通过对数据进行二次采样并随机选择每棵树的单个特征来构建一个随机森林。例如，假设有一些数据集，

$D = \{(x_{1},y_{1}), ......(x_{N},y_{N})\}$ 其中我们有和对于. 我们正在尝试按如下方式构建树： $x_{i} \in \mathbb{R}^{D}$ $y_{i} \in \mathbb{R}$ $i= 1,....n.$

首先我们随机采样一个特征索引 $j \in \{1,....D\}$
然后我们绘制一些大小为样本并进行替换。然后这些数据点将具有索引 $\tilde D_{k}$ $M \le N$ $k = k_{1},....,k_{M}$
只保留M 个样本的 $j^{th}$ $\tilde D^{j}_{k} = {(\tilde x^{(j)}_{(k_{1})},y_{(k_{1})}),......(\tilde x^{(j)}_{(k_{M})},y_{(k_{M})})}$
上构建决策树。 $\tilde D_{k}^{(j)}$
然后平均这些随机树的 R 来创建一个随机森林

我们被问到哪一类条件分布是非常随机的无偏森林？我想知道条件分布的“类”是什么意思？有人可以对此有所了解吗？ $Y|X=x$

此外，该 RF 的偏差和方差与传统 RF 有何不同？我假设我需要查看泛化界限？我不确定。有人可以对此有所了解吗？