接受分类向量并使用 one-hot 编码将其转换为二进制表示的运算符的名称是什么?我想知道,因为我正在写一篇科学论文,需要一个合适的名字。
科学文献中所谓的“one-hot”编码是什么?
机器算法验证
术语
分类编码
2022-03-15 00:15:19
4个回答
统计学家将 one-hot 编码称为虚拟编码。正如其他人所建议的(包括评论中的Scortchi),这不是确切的同义词,但这是通常用于 0-1 编码的分类变量的术语。
该术语来自电子工程。试想谁会称 1 “热”?只有那些用电工作的人,其中“热”或“带电”意味着电线上有电势。“一个热”是指电路设计,其中一根导线上的离散电信号电平将在一组导线上被解码为热/冷。我想一些具有 EE 背景的机器学习人员发现这个类比很有说服力。
在计量经济学和统计学中,您可能会遇到非常相似的变量dummy
或indicator
变量,因为它们用于表示具有不同指标的不同类别。不过还是有细微差别的。例如,您为 K 个类别制作了 K-1 个假人,因为基本类别对应于所有设置为 0 的假人。相比之下,我认为在一个热编码中,您有 K 条线,其中基本类别将有自己的线(多变的)。
我接受过统计培训,最近听说过机器学习/计算机科学中的“单热编码”。我通常只是将 one-hotted 矩阵称为设计矩阵/数据矩阵/设计框架。
其它你可能感兴趣的问题