数据挖掘 - 为什么要留一编码？ - 吾爱随笔录

数据挖掘编码

2022-03-08 06:05:16

这个问题来自这篇文章，询问 one-hot encoding 和 leave-one-out encoding 之间的区别。

我现在了解如何计算训练集的留一法编码。但是测试集呢，Y（标签）在哪里被蒙蔽了？如果测试集的编码总是 0.5，那么这个编码有什么意义呢？

1个回答

关键是要学习有用的数据变体，而不是仅仅按大的分类变量进行拆分。编码后的每个新行都与输出立即相关，而原始分类变量可能仅以间接、潜在的方式相关。另外，输出和原始变量之间的相互作用也被定义了。将其视为显式添加此交互以向此方法添加更直观的理由。

所以我认为这种方法不仅适用于分而治之的 RF 方法，也适用于普通的 LR。

如果测试集的编码总是 0.5，那么这个编码有什么意义呢？

没关系，只要您知道这应该如何与输出相关。在这个例子中，0.5 只是一个粗略的输入近似值，但鉴于您已经学习了模型，即使这个近似值仍然是有意义的，因为它指示模型——选择哪条输出路径。如果您选择的模型是 RF，那么 0.5 将落在大约相同的一组叶子上，因为分布更细（如果您能够知道的话）

同时，更强大的近似值也是可能的，例如，可以使用 KDE 估计响应变量分布，然后在测试时从中抽取样本。添加均匀随机噪声只是这个方向的一个提示。也许你想跟随它？

只知道特定级别的分类变量比这个 0.5 提供的信息要少得多，不是吗？

其它你可能感兴趣的问题