什么是和编码?

数据挖掘 分类编码
2022-03-05 08:45:01

我听说过将总和编码作为一种编码分类变量的方法,但我无法找到它实际上是什么的清晰解释。

我在Towards DataScience上找到了以下解释

就像 OneHot 一样,除了一个值保持不变并在所有列中编码为 -1。

但这让我感到困惑,因为它不涉及任何求和。

真的只是吗?:

Value      Variable 1. Variable 2. 
Red            1            0
Blue           0            1
Green         -1           -1
1个回答

Sum 编码类似于 one-hot 编码,但不同之处在于,在 sum 编码中,我们将一个值作为“-1”,而不与其他值进行比较。而在 one-hot 编码中,我们为每个值创建一列以与所有其他值进行比较。

它被称为总和编码,因为截距表示总均值,而对比度估计是级别 1 的均值减去总均值。

在 one-hot 编码中,截距表示基线条件的平均值,对比度估计表示简单的一个特定条件与基线之间的差异。