时间序列中的平均编码

数据挖掘 数据泄露
2022-03-07 09:50:50

考虑来自 1-5 个块的 TS,并使用 1-4 个块作为训练数据。

在整个火车数据上构建平均编码是否无效/或者我应该是指编码块 1/块 1-2/.../块 1-2-3-4?

编辑1:通过平均编码,我的意思是通过对关联值取目标的平均值来编码我的分类特征。

1个回答

进行平均编码时的主要规则是不使用测试数据。只要你不使用测试数据,你就会没事的。

话虽如此,如果您使用所有训练数据进行编码,您可能会在测试集中看到性能下降,如果您以交叉验证的方式进行编码,则不会发生这种情况。因此,第二个选项相对于第一个选项具有一些优势,但第一个选项更简单。尽管如此,我还是会选择第二个。

此外,您可以像在 python 包 category-encoders 中那样为均值添加正则化,这样对过拟合会更加稳健。该包允许其他选项,例如留一编码,以确保不使用样本的目标来计算该样本的编码。