数据挖掘 - 在降低维度的同时保留解释的方差 - 吾爱随笔录

在降低维度的同时保留解释的方差

数据挖掘降维

2022-03-04 20:20:36

我们有一个功能 $f:R^N \rightarrow R$ 和一组点 $D=\{ x\in R^N\}$ . 如何将点的维度线性降低到 $M \ll N$ 这样解释方差*的分数将尽可能地保留？

我们指的是预测输出的解释方差的分数 $f$ 使用数据集 $D$

2个回答

$f$ 未定义为 $\mathbb{R}^M$ , 以及减少 $x \in \mathbb{R}^N$ 到 $y \in \mathbb{R}^M$ 您正在创建一个函数逼近器 $g(y) \approx f(x)$ .

我建议使用具有 N 维输入和 M 维“瓶颈”层的神经网络自动编码器。您将需要缩放输入和输出。使用标准的自动编码器，您将不得不测量保留方差的分数 $f(x)$ 然后。自动编码器不会直接为您执行此操作，而是会像 PCA 一样尝试使用 y 对 x 进行编码（与 PCA 不同，它可能会非线性地这样做）。

如果你可以更进一步 $f(x)$ 是可微的。代替通常的均方误差作为损失函数，您可以使用 $\frac{1}{k}\sum_{i=1}^{k} (f(x_{i}) - f(\hat{x_i}))^2$ - 这将鼓励神经网络保持方差 $x$ 重要的是 $f(x)$ . 您必须通过分析计算出梯度函数。另请记住，我没有尝试过，只是试图将您的要求与某些理论相匹配。

此外，您现在将拥有 $g(y)$ 会的 $f(\hat{x})$ . 您可以生成任何 $y$ 从 $x$ 通过运行自动编码器的前半部分，可以生成任何 $\hat{x}$ 从 $y$ 通过运行自动编码器的后半部分。

您也许还可以通过使用您的函数来调整 t-SNE $f(x)$ 生成减小尺寸时需要保留的距离。

您可以尝试应用主成分分析，一种形式或排序，您可以在其中线性变换向量空间以最大化新维度上的方差。因此，您最终会得到一个新的排序，其中更多的方差包含在更少的维度中，使您能够在分析中考虑更少的维度。

大多数（如果不是全部）统计软件包都提供 PCA 作为组件。

其它你可能感兴趣的问题

上一篇深度残差网络的图形错了吗？下一篇softmax层的裁剪阈值