二进制编码与 One-hot 编码

机器算法验证 机器学习 神经网络 分类 分类编码
2022-03-31 08:02:00

对于英文文本的分类输入变量及其对神经网络的影响,二进制编码和 one-hot 有什么区别?谁能帮我找到一篇关于这个问题的科学论文?

1个回答

如果你有一个系统n不同(有序)状态,给定状态的二进制编码就是rank number1二进制格式(例如kth 状态二进制k1)。这个的一个热门编码k状态将是一个向量/长度序列n与单个高位(1)在kth 位置,所有其他位为低 (0)。

作为下一个系统(教育水平)的示例编码:

-----------------------------------------------
|   Level   | "Decimal  | Binary   | One hot  |
|           | encoding" | encoding | encoding |
-----------------------------------------------
| No        |     0     |    000   |  000001  |
| Primary   |     1     |    001   |  000010  |
| Secondary |     2     |    010   |  000100  |
| BSc/BA    |     3     |    011   |  001000  |
| MSc/MA    |     4     |    100   |  010000  |
| PhD       |     5     |    101   |  100000  |
-----------------------------------------------

参考:维基百科上的一种热门编码

2017 年国际计算机应用杂志上关于不同编码对神经网络影响的比较的论文可能是一个很好的起点: 神经网络分类器的分类变量编码技术的比较研究