如果我有一组 N 个数据,每个单独的数据都有 4 个特征。我不知道特征之间可能存在(或不存在)的关系。
是否可以从我的初始集合中生成新数据,这些数据将尊重特征之间可能存在的隐式关系,而无需明确地找到这些关系?
如果我有一组 N 个数据,每个单独的数据都有 4 个特征。我不知道特征之间可能存在(或不存在)的关系。
是否可以从我的初始集合中生成新数据,这些数据将尊重特征之间可能存在的隐式关系,而无需明确地找到这些关系?
你想要的是一个生成模型。
深度学习家族的一个简单生成模型是自动编码器:神经网络接收您的数据作为输入,并经过训练以输出相同的数据。
有不同类型的自动编码器。最简单的一种是收缩自动编码器,它有一个瓶颈层,即一个单元很少的层。对于您的情况,只有 4 个输入特征,您可能有 2 个单元(甚至 1 个单元,您可以尝试调整此超参数)隐藏层作为瓶颈。
一旦完全训练,您只需将自动编码器的一部分从瓶颈带到输出,并将随机数作为输入提供给它,并期望获得与原始输入遵循相同分布的输出数据。
这个想法是训练允许网络以潜在变量的形式学习输入数据分布的表示。
根据输入数据的分布,简单的收缩自动编码器可能无法正确学习良好的表示。更高级的变体包括去噪自动编码器、稀疏自动编码器和变分自动编码器。
目前非常流行的其他生成模型是生成对抗网络。