随机森林的无偏性

数据挖掘 机器学习 随机森林 方差 偏见
2022-02-14 21:01:20

假设我试图通过对数据进行二次采样并随机选择每棵树的单个特征来构建一个随机森林。例如,假设有一些数据集,

D={(x1,y1),......(xN,yN)}其中我们有对于. 我们正在尝试按如下方式构建树:xiRDyiRi=1,....n.

  1. 首先我们随机采样一个特征索引j{1,....D}
  2. 然后我们绘制一些大小为样本并进行替换。然后这些数据点将具有索引D~kMNk=k1,....,kM
  3. 只保留M 个样本的 jthD~kj=(x~(k1)(j),y(k1)),......(x~(kM)(j),y(kM))
  4. 上构建决策树D~k(j)
  5. 然后平均这些随机树的 R 来创建一个随机森林

我们被问到哪一类条件分布是非常随机的无偏森林?我想知道条件分布的“类”是什么意思?有人可以对此有所了解吗?Y|X=x

此外,该 RF 的偏差和方差与传统 RF 有何不同?我假设我需要查看泛化界限?我不确定。有人可以对此有所了解吗?

0个回答
没有发现任何回复~