f(x) 域的降维

计算科学 线性代数 高维 数据分析 模型
2021-12-04 03:16:03

我想知道对于存在因变量的数据集是否有类似于 PCA 的东西。(虽然我对任何降维方法都感兴趣,但 PCA 只是一个例子。)PCA 将采用 64 维数据集(例如),并可能返回 4 维来解释 95% 的方差。在此示例中,您可以从新空间中的 4 点向量和协方差矩阵中恢复具有相当高保真度的原始记录。

那么,如果 x 有 64 个维度,并且数据的形式为 (x, y),其中 y 是一个度量值,那又如何呢?有没有类似的东西,可以让我从一组较低维度的输入中预测 y?即y g(x'),其中dim(x') < dim(x),并且有一个映射m:x' x。(y' = g(x') 和另一个地图 p: y' y 也可以。)

通常人们在这种情况下所做的是选择一个模型,如 GLM 并进行部分回归,消除回归系数接近 0 的那些维度。但是我正在寻找一种不假设任何类型的模型的方法全部。这些存在吗?

下图说明了这种极端情况。名义上数据是二维的,但 y 维只是一点点 0 均值噪声——仅根据 x 就可以很好地估计 z。所以我想知道是否有一种技术可以得出这一点,这里还有冗余不太明显的情况。

在此处输入图像描述

2个回答

看看活动子空间,例如,理论与实践中的活动子空间方法:http: //epubs.siam.org/doi/abs/10.1137/130916138

以及此处的 PDF:http: //inside.mines.edu/~pconstan/docs/constantine-asm.pdf

我有一本 SIAM 书(Active Subspaces: Emerging Ideas for Dimension Reduction in Parameter Studies)将于 3 月出版。

认为f地图RmR. 一种解决您正在寻找的模型是

f(x)g(WTx),

在哪里Wm×n, 和g是一个映射的函数RnR. 在活动子空间中,W是第一个n对称正半定矩阵的特征向量,

C=(f)(f)Tρdx,

在哪里ρ=ρ(x)是域上的给定密度函数。我链接到的论文讨论了如何估计W以及如何构建g---连同误差估计。

这是利用活动子空间构建响应面(即代理模型或元模型)的过程的视频:https ://www.youtube.com/watch?v=mJvKzjT6lmY

但是,在您显示的图中,该函数有噪声,因此精确的梯度可能不是最佳选择;这些特征向量将拾取与​​高频噪声相关的方向。在统计文献中,您的问题被称为充分降维,它是在回归(即监督学习)的上下文中设置的,其中一组变量指定为预测变量(自变量),另一组指定响应(因变量)。看看 Dennis Cook 的书Regression Graphics,这是我最喜欢的对该领域的概述。是的,足够的降维是统计的一个完整子领域。

编辑:我更新了视频链接,这本书现在由SIAM出版,我们有一个新的活动子空间网站

我认为执行张量积样条插值或者更确切地说,在数据嘈杂时通过最小二乘近似可能会有所帮助,例如,通过使用 Matlab 的曲线拟合工具箱,并查看沿某些维度的系数是否趋于零,这意味着它是沿该维度的低(希望是 0-)阶多项式。