我正在学习神经网络的不同输入向量表示
稀疏 One-Hot 编码向量的替代方法之一是 Multi-Hot 编码。
我是否正确理解传统的二进制计数方法正是 Multi-Hot 的含义?我们可以把一个字节想象成一个由 8 个分量组成的向量,每个条目要么是 0,要么是 1.0
问题的第二部分:
我想使用 Multi-Hot 编码来表达多达 255 个可能的输入值。如果我使用二进制方法,这是否与标签编码相同?从某种意义上说,网络会发现 00000010 优于 00000001,即存在“强相关性和优先级”?
或者它没有那么夸张?例如,在标签编码中,我可以只使用 1 个输入神经元,强度在 0 到 255 之间变化,很像枚举。那里的效果会被夸大,因为它呈现出非常明显的价值优先权 超值
这意味着我不能将它用于 255 个不同的类别(或相对不相关的类别)
Multi-Hot 编码中的效果是否一样糟糕,特别是在二进制方法中?
如果它与 Label-Encoding 相同(仅使用 1 个输入神经元),为什么人们会考虑 Multi-hot,膨胀输入向量的维度?
这篇文章指出,当输入应该包含时,我们可以使用 multi-hot连接的 one-hot 向量。例如表示每个实体都可以属于不同的类别。还有其他用途吗?
