在降低维度的同时保留解释的方差

数据挖掘 降维
2022-03-04 20:20:36

我们有一个功能f:RNR和一组点D={xRN}. 如何将点的维度线性降低到MN这样解释方差*的分数将尽可能地保留?

  • 我们指的是预测输出的解释方差的分数f使用数据集D
2个回答

f未定义为RM, 以及减少xRNyRM您正在创建一个函数逼近器g(y)f(x).

我建议使用具有 N 维输入和 M 维“瓶颈”层的神经网络自动编码器。您将需要缩放输入和输出。使用标准的自动编码器,您将不得不测量保留方差的分数f(x)然后。自动编码器不会直接为您执行此操作,而是会像 PCA 一样尝试使用 y 对 x 进行编码(与 PCA 不同,它可能会非线性地这样做)。

如果你可以更进一步f(x)是可微的。代替通常的均方误差作为损失函数,您可以使用1ki=1k(f(xi)f(xi^))2- 这将鼓励神经网络保持方差x重要的是f(x). 您必须通过分析计算出梯度函数。另请记住,我没有尝试过,只是试图将您的要求与某些理论相匹配。

此外,您现在将拥有g(y)会的f(x^). 您可以生成任何yx通过运行自动编码器的前半部分,可以生成任何x^y通过运行自动编码器的后半部分。


也许还可以通过使用您的函数来调整 t-SNEf(x)生成减小尺寸时需要保留的距离。

您可以尝试应用主成分分析,一种形式或排序,您可以在其中线性变换向量空间以最大化新维度上的方差。因此,您最终会得到一个新的排序,其中更多的方差包含在更少的维度中,使您能够在分析中考虑更少的维度。

大多数(如果不是全部)统计软件包都提供 PCA 作为组件。