为什么将音高编码为 one-hot 编码而不是序数编码器?

数据挖掘 深度学习 音频识别 一热编码
2022-02-11 17:03:54

查看有关用于合成音频的深度学习的最新出版物,可以看到他们总是将音高编码为单热向量。我很好奇这样做有什么优势,因为音高(频率)自然适合作为标量值,并且可以通过对其进行编码来降低网络维度。

我研究过的论文是:

GANSynth:对抗神经音频合成

使用 WaveNet 自动编码器的音符的神经音频合成

1个回答

因为编码音高的平均值不是编码类。

看这个例子:

LabelEncoder 可以将 [dog,cat,dog,mouse,cat] 变成 [1,2,1,3,2],但随后强加的序数意味着 dog 和 mouse 的平均值是 cat。仍然有诸如决策树和随机森林之类的算法可以很好地处理分类变量,并且 LabelEncoder 可以用于使用更少的磁盘空间来存储值。