我只是在玩一些简单的特征表示,然后想到了以下几点:
假设我们有 4 个类别用于给定特征(例如水果){Apple、Orange、Pear、Melon}。在这种情况下,one-hot 编码将产生:
Apple: [1 0 0 0]
Orange: [0 1 0 0]
Pear: [0 0 1 0]
Melon: [0 0 0 1]
上面的意思是,当我们从一个特征变成四个特征时,我们将特征空间翻了两番。
这看起来像是在浪费一些位,因为我们可以用 4 个值表示位/功能:
Apple: [0 0]
Orange: [0 1]
Pear: [1 0]
Melon: [1 1]
在任何最常见的机器学习模型中,这种表示会有问题吗?