回归树的诚实条件是什么?

机器算法验证 机器学习 随机森林 描述性统计
2022-03-30 01:21:33

我有一个关于 Stefan Wager 的“随机森林的渐近理论”的问题:http: //arxiv.org/pdf/1405.0352v1.pdf

Wager 首先指出,树木“在给定训练数据的意义上是完全生长的(Xi,Yi), 一棵树做出如下形式的预测T(x)=Yi(x)对于一些索引i(x).

使用这个符号,他继续定义条件(9)如下:

L(Yi(x)|Xi(x)=x)=dL(Yi|Xi=x)

我没有掌握这种情况背后的完整想法,我相信这与我对i(x)索引符号。有人可以帮助我理解这种情况以及它如何导致我们不能同时使用训练标签来选择拆分和进行预测的情况吗?这种情况可以在论文第 8 页的顶部找到。

1个回答

正如作者随后阐述的那样,“完全成长”条件的含义是树的每个终端节点都包含训练数据中的一个实例。作者说这是“理论上的便利”:

同时,(C)是一种理论上的便利,可以让我们简化阐述。在实践中,树有时会增长为具有终端节点大小k而不是1用于正则化。然而,在我们的设置中,我们已经通过绘制大小的子样本来进行正则化 s在哪里s/n0并且使用较大的叶子大小的正则化效果并不那么重要。

符号T(x)=Yi(x)意味着,对于任何例子x您可能想要预测,有一些整数索引i(x)这样树T预测x与索引中的训练数据点具有相同的标签i(x).


关于他们对“诚实”的定义。这基本上意味着树必须使用一组不同的点来构建拆分和预测标签(与作者指出的 CART 的做法相反)。我同意这个方程的解析相当复杂!这是它的工作原理。

假设你有一个观点x在您的数据集中。诚实条件说的是:当你放下时树输出的标签x沿着树 - 被视为随机变量(取决于随机数据) -不能取决于是否x实际上最终栖息在树的叶子上。换句话说,可能性必须与您有两个带有协变量的数据点相同x在您的数据(以及单独绘制的响应,iid)中,您使用其中一个来确定拆分,然后输出另一个的标签。