这个问题来自这篇文章,询问 one-hot encoding 和 leave-one-out encoding 之间的区别。
我现在了解如何计算训练集的留一法编码。但是测试集呢,Y(标签)在哪里被蒙蔽了?如果测试集的编码总是 0.5,那么这个编码有什么意义呢?
这个问题来自这篇文章,询问 one-hot encoding 和 leave-one-out encoding 之间的区别。
我现在了解如何计算训练集的留一法编码。但是测试集呢,Y(标签)在哪里被蒙蔽了?如果测试集的编码总是 0.5,那么这个编码有什么意义呢?
关键是要学习有用的数据变体,而不是仅仅按大的分类变量进行拆分。编码后的每个新行都与输出立即相关,而原始分类变量可能仅以间接、潜在的方式相关。另外,输出和原始变量之间的相互作用也被定义了。将其视为显式添加此交互以向此方法添加更直观的理由。
所以我认为这种方法不仅适用于分而治之的 RF 方法,也适用于普通的 LR。
如果测试集的编码总是 0.5,那么这个编码有什么意义呢?
没关系,只要您知道这应该如何与输出相关。在这个例子中,0.5 只是一个粗略的输入近似值,但鉴于您已经学习了模型,即使这个近似值仍然是有意义的,因为它指示模型——选择哪条输出路径。如果您选择的模型是 RF,那么 0.5 将落在大约相同的一组叶子上,因为分布更细(如果您能够知道的话)
同时,更强大的近似值也是可能的,例如,可以使用 KDE 估计响应变量分布,然后在测试时从中抽取样本。添加均匀随机噪声只是这个方向的一个提示。也许你想跟随它?
只知道特定级别的分类变量比这个 0.5 提供的信息要少得多,不是吗?