科学文献中所谓的“one-hot”编码是什么?

机器算法验证 术语 分类编码
2022-03-15 00:15:19

接受分类向量并使用 one-hot 编码将其转换为二进制表示的运算符的名称是什么?我想知道,因为我正在写一篇科学论文,需要一个合适的名字。

4个回答

统计学家将 one-hot 编码称为虚拟编码正如其他人所建议的(包括评论中的Scortchi),这不是确切的同义词,但这是通常用于 0-1 编码的分类变量的术语。

另请参阅:名义/分类数据的“虚拟变量”与“指标变量”

这取决于您的目标受众。

正如蒂姆所说,统计学家称之为虚拟编码,这就是我在描述回归模型之类的东西时所期望看到的。“包含虚拟编码变量以根据商店的位置进行调整。” 我认为在这里将其称为一次性编码似乎有点奇怪。

然而,正如另一位 Tim所说,one-hot 编码在机器学习文献中相当普遍。它隐隐约约地暗示了节点(如神经网络中)、物理线路(设备中)或类似的东西的存在,至少对我来说是这样。

形式上,我猜你正在应用一组指标函数IX,但这可能在证明之外太正式了。

该术语来自电子工程。试想谁会称 1 “热”?只有那些用电工作的人,其中“热”或“带电”意味着电线上有电势“一个热”是指电路设计,其中一根导线上的离散电信号电平将在一组导线上被解码为热/冷。我想一些具有 EE 背景的机器学习人员发现这个类比很有说服力。

在计量经济学和统计学中,您可能会遇到非常相似的变量dummyindicator变量,因为它们用于表示具有不同指标的不同类别。不过还是有细微差别的。例如,您为 K 个类别制作了 K-1 个假人,因为基本类别对应于所有设置为 0 的假人。相比之下,我认为在一个热编码中,您有 K 条线,其中基本类别将有自己的线(多变的)。

我接受过统计培训,最近听说过机器学习/计算机科学中的“单热编码”。我通常只是将 one-hotted 矩阵称为设计矩阵/数据矩阵/设计框架。