首先,忽略仇恨者。我很久以前就开始从事音乐领域的机器学习工作,并通过这项工作获得了几个学位。当我开始的时候,我问人们的问题和你一样。这是一个迷人的领域,总是有新人的空间。我们都必须从某个地方开始。
您查询的研究领域是音乐信息检索(Wiki Link)和计算机音乐(Wiki Link)。你在将问题缩小到单一乐器(单音音乐)方面做出了很好的选择,因为和弦音乐大大增加了难度。
您正在尝试真正解决两个问题:
1)单声道音乐的自动转录(更多阅读)这是从单个乐器乐曲中提取音符的问题。
2)算法作曲(更多阅读),这是使用转录音乐语料库生成新音乐的问题。
直接回答您的问题:
我认为这将是一个无监督学习问题,但我不太确定。
由于这里有两个学习问题,所以有两个答案。对于自动转录,您可能需要遵循监督学习方法,其中您的分类是您尝试提取的注释。对于算法组合问题,它实际上可以采用任何一种方式。在这两个领域的一些阅读将清楚这一点。
我应该从声波中提取哪些特征才能使输出的音乐悦耳?
MIR 中有很多常用的功能。@abhnj 在他的回答中列出了 MFCC,但还有更多。MIR 中的特征分析发生在多个域中,并且每个域都有特征。一些域是:
- 频域(这些是我们通过扬声器听到的值)
- 谱域(这个域是通过傅里叶函数计算的(阅读有关快速傅里叶变换的信息),并且可以使用多个函数(幅度、功率、对数幅度、对数功率)进行转换
- 峰值域(频谱域上的幅度和频谱峰值域)
- 谐波域
您将面临的首要问题之一是如何分割或“切割”您的音乐信号,以便您可以提取特征。这是本身很复杂的分段问题(一些读数)。切割声源后,您可以在从片段中提取特征之前将各种功能应用于片段。其中一些函数(称为窗口函数)是:Rectangular、Hamming、Hann、Bartlett、Triangular、Bartlett_hann、Blackman 和 Blackman_harris。
一旦你从你的域中切割出你的段,你就可以提取特征来表示这些段。其中一些将取决于您选择的域。一些特征示例是:您的正常统计特征(平均值、方差、偏度等)、ZCR、RMS、光谱质心、光谱不规则性、光谱平坦度、光谱色调、光谱波峰、光谱斜率、光谱滚降、光谱响度、频谱音高、谐波奇偶比、MFCC 和树皮标度。还有更多,但这些是一些很好的基础知识。
是否有可能使用循环神经网络输出序列音符(ABCDEF)的向量?
是的。已经有几项工作可以做到这一点。(这里有几个读数)
有什么聪明的方法可以输入声波的特征以及音符序列吗?
标准方法是使用我上面所做的解释(域、段、特征提取)等。为了节省一些工作,我强烈建议从 MIR 框架开始,例如 MARSYAS ( Marsyas )。他们将为您提供特征提取的所有基础知识。有很多框架,所以只要找到一个使用你熟悉的语言的框架。