DNN 通常用于对事物进行分类(当然),但我们可以让它们疯狂地发出声音,然后告诉它们我们是否认为它听起来好听吗?我想在完成培训课程后(也许将输出与现有歌曲进行比较)我们可以得到一个具有基本音乐概念的 NN。
时间将是一个问题;我不确定这有多可行。可能是附加到所有隐藏层的强加权输入?用它作为偏见?
这甚至有点可行吗?
DNN 通常用于对事物进行分类(当然),但我们可以让它们疯狂地发出声音,然后告诉它们我们是否认为它听起来好听吗?我想在完成培训课程后(也许将输出与现有歌曲进行比较)我们可以得到一个具有基本音乐概念的 NN。
时间将是一个问题;我不确定这有多可行。可能是附加到所有隐藏层的强加权输入?用它作为偏见?
这甚至有点可行吗?
首先要定义什么是“好”和“坏”的声音。这是一个非常棘手的问题,因为网络需要数字输入。音乐是一大堆数字。
我从从事研究识别两种声音的相似程度的人那里得知,并模仿说:你听到一个声音并尝试制造另一个听起来像它的声音。就像你哼一首歌或类似的歌一样。这绝非易事。这些家伙正在使用类似于特征提取的东西,包括傅里叶变换和能量之类的东西。他们为网络提供(选定的)特征并......训练。
现在,回到您最初的问题:*您在训练期间将什么作为目标呈现?*您可以将不同类型的音乐呈现为类别并进行分类(我忍不住想到了这项关于 fish 的研究)。或者你定义你喜欢的音乐类别,看看网络是否可以对它们进行分类;)
这里的一个基本决定是你能听到一段声音多长时间。由于需要分析频率,这是一个关键问题。既然你谈到了 DNN,我想知道你是否想在网上做它,作为一个流,在这种情况下,我不知道从哪里开始,只是过一会儿再做。
其他想法:我记得这个系列中的一个小草图,关于一位研究人员利用傅里叶光谱中峰值之间的关系来区分噪音和音乐。