关于梯度提升和编码类型

数据挖掘 编码 助推 分类编码 一热编码
2021-09-17 05:32:14

我正在查看此材料,发现以下声明:

对于此类模型 [梯度提升机算法] [...] 即使顺序是任意的 [而不是One-Hot 编码]。

你知道一些支持这种说法的参考资料吗?我知道数字编码比 One-Hot 编码在计算上更有效,但我想更多地了解它们在梯度提升方法中编码无序分类变量的假设等价性。

谢谢!

1个回答

这实际上是一般基于树的模型的一个特征,而不仅仅是梯度提升树。

不完全是参考,但这篇 Medium 文章解释了为什么序数编码通常更有效。

关于安全的话题,我想作者应该说使用序数编码比线性方法更安全,但仍然不是完全安全。决策树方法可以在序数编码中找到虚假规则,但它们没有线性方法所做的关于数字语义的强假设。

. . . 我想更多地了解他们假定的对无序分类变量进行编码的等效性。. .

任何用 one-hot 编码派生的规则也可以用序数编码表示,只是可能需要更多的拆分。

为了说明,假设您有一个foo具有可能值的分类变量spam, ham, eggsone-hot 编码将创建 3 个虚拟变量is_spam, is_ham, is_eggs假设任意序数编码分配spam= 1、ham= 2 和eggs= 3。

假设 OHE 决策树在 上分裂is_eggs = 1这可以通过 split 在有序决策树中表示foo > 2假设 OHE 树在 上分裂is_ham = 1序数树将需要两个拆分:foo > 1然后foo < 3