编码相关

数据挖掘 统计数据 数学 理论 编码器
2022-02-17 18:09:48

我有相当基于理论的问题,因为我在编码器、嵌入等方面没有那么丰富的经验。从科学上讲,我主要关注基于新进化模型的方法。

假设我们有具有高度相关属性的数据集。通常对编码器进行训练以学习较少维度的表示。我想知道的恰恰相反。是否有可能学习编码到更多维度但相关性较低(希望不相关)?这个想法是将较少维度的、非常困难的问题转化为高维度但更容易的问题。Kinda 使用 NN 解开这些复杂的相关性并稍后解码解决方案。

编辑 1 当然,我们假设我们知道相关映射非常好。我究竟如何使用相关映射来展开它?是否可以从根本上取消映射属性依赖关系?

1个回答

您可以通过使用自定义损失函数的神经自动编码器来做到这一点。使用隐藏层,我们称之为lencoded,具有比输入数据的特征更多的节点。

您必须对自定义损失进行编码: loss=corr(o(lencoded))+MSE(o(loutput), input),

在哪里corr(o(lencoded))是编码层输出的相关性和MSE(o(loutput),input)是最后一层输出和输入实例的均方误差。

使用此损失,您的模型将尝试减少隐藏层的相关性,同时仍确保它能够解码训练实例。

我非常怀疑这会有什么用。