在音乐信息检索中,通常将音频信号转换为某种“频率向量序列”,例如 STFT 或 Mel 频谱图。
我想知道以自我监督的方式使用转换器架构是否是一个好主意——例如自回归模型或 NLP 中的 BERT——以获得比频谱图本身“更智能”的音乐表示. 这种智能预训练表示可用于进一步的下游任务。
从我的快速谷歌搜索中,我发现了几篇做类似事情的论文,但是——令我惊讶的是——都使用了某种符号/离散的音乐表示,比如乐谱。(例如这里或这里)。
我的问题是这样的:
直接在 Mel 谱图上训练这样一个无监督模型是否现实?
损失函数不是“下一个单词概率的 log softmax”,而是在下一个时间步中“预测的光谱向量”和“观察到的光谱向量”之间的某种 l2 距离。
有人试过吗?