一键编码

数据挖掘 回归
2021-10-08 02:38:36

我正在阅读 tensor-flow 教程,并注意到他们在回归tensorflow中使用了单热编码。我不完全理解它是如何工作的。让我们采用普通最小二乘回归的过度简化情况。假设我们有 y = [1,2,3] 和 x = [cat, dog, mouse]。转换为一个热向量,我们得到

cat = [0,0,1]
dog = [0,1,0]
mouse = [1,0,0]

回归方程现在看起来如何?现在是多元回归吗?

y = alpha + beta*x_1 + beta*x_2 + beta*x_3,

其中 x_1, x_2, x_3 是 one-hot 向量的坐标?

PS我对这个设置的机制更感兴趣,没有那么多意义。

2个回答

是的,您将其转换为三个不同的变量,但这不称为多元回归,它表示多个输出变量,而不是输入。(感谢西蒙纠正我)

是的,这是转换分类变量以拟合模型的标准方法。在这种情况下,它将用于训练神经网络。因此,分类变量的每个类别都表示为一个单独的向量。

请注意,您不需要对诸如男性/女性之类的二元变量执行此操作,因为存在一个类别意味着不存在另一类别,因此不要使用诸如Gender = Male/Female;之类的变量。您可以将其转换为名为is_female = 0/1.

如果此数据集用于拟合回归模型,则正确的命名应该是多元线性回归。