查看有关用于合成音频的深度学习的最新出版物,可以看到他们总是将音高编码为单热向量。我很好奇这样做有什么优势,因为音高(频率)自然适合作为标量值,并且可以通过对其进行编码来降低网络维度。
我研究过的论文是:
查看有关用于合成音频的深度学习的最新出版物,可以看到他们总是将音高编码为单热向量。我很好奇这样做有什么优势,因为音高(频率)自然适合作为标量值,并且可以通过对其进行编码来降低网络维度。
我研究过的论文是:
因为编码音高的平均值不是编码类。
看这个例子:
LabelEncoder 可以将 [dog,cat,dog,mouse,cat] 变成 [1,2,1,3,2],但随后强加的序数意味着 dog 和 mouse 的平均值是 cat。仍然有诸如决策树和随机森林之类的算法可以很好地处理分类变量,并且 LabelEncoder 可以用于使用更少的磁盘空间来存储值。