对于英文文本的分类输入变量及其对神经网络的影响,二进制编码和 one-hot 有什么区别?谁能帮我找到一篇关于这个问题的科学论文?
二进制编码与 One-hot 编码
机器算法验证
机器学习
神经网络
分类
分类编码
2022-03-31 08:02:00
1个回答
如果你有一个系统不同(有序)状态,给定状态的二进制编码就是二进制格式(例如th 状态二进制)。这个的一个热门编码状态将是一个向量/长度序列与单个高位(1)在th 位置,所有其他位为低 (0)。
作为下一个系统(教育水平)的示例编码:
-----------------------------------------------
| Level | "Decimal | Binary | One hot |
| | encoding" | encoding | encoding |
-----------------------------------------------
| No | 0 | 000 | 000001 |
| Primary | 1 | 001 | 000010 |
| Secondary | 2 | 010 | 000100 |
| BSc/BA | 3 | 011 | 001000 |
| MSc/MA | 4 | 100 | 010000 |
| PhD | 5 | 101 | 100000 |
-----------------------------------------------
参考:维基百科上的一种热门编码
2017 年国际计算机应用杂志上关于不同编码对神经网络影响的比较的论文可能是一个很好的起点: 神经网络分类器的分类变量编码技术的比较研究