我听说过将总和编码作为一种编码分类变量的方法,但我无法找到它实际上是什么的清晰解释。
我在Towards DataScience上找到了以下解释:
就像 OneHot 一样,除了一个值保持不变并在所有列中编码为 -1。
但这让我感到困惑,因为它不涉及任何求和。
真的只是吗?:
Value Variable 1. Variable 2.
Red 1 0
Blue 0 1
Green -1 -1