有没有与降维相反的方法?

数据挖掘 机器学习 scikit-学习
2021-10-04 09:33:40

我是机器学习领域的新手,但我已经完成了信号处理方面的工作。如果这个问题被贴错标签,请告诉我。

我有由至少三个变量定义的二维数据,高度非线性的模型太复杂而无法模拟。

我在使用 PCA 和 ICA(来自 python 库 Scikit-Learn)等方法从数据中提取两个主要成分方面取得了不同程度的成功,但似乎这些方法(或至少,这些方法的实现)是有限的提取与数据中的维度一样多的组件,例如,从 2D 点云中提取 2 个组件。

在绘制数据时,受过训练的眼睛很清楚存在三种不同的线性趋势,三种颜色的线表示方向。

数据图

使用 PCA 时,主要组件与其中一条颜色线对齐,另一条与预期的 90° 对齐。使用 ICA 时,第一个分量与蓝线对齐,第二个分量介于红线和绿线之间。我正在寻找一种可以重现信号中所有三个分量的工具。

编辑,附加信息:我在这里工作在更大相平面的一小部分。在这个小子集中,每个输入变量都会在平面上产生线性变化,但这种变化的方向和幅度是非线性的,并且取决于我正在工作的更大平面上的确切位置。在某些地方,其中两个变量可以退化:它们产生相同方向的变化。例如,假设模型依赖于 X、Y 和 Z。变量 X 的变化将产生沿蓝线的变化;Y 引起沿绿线的变化;Z,沿着红色的那个。

2个回答

简短的回答是肯定的。

本质上,您将执行某种特征工程。这意味着构建数据的一系列函数,通常是:

ϕj(x):RpR ,  j=1,...,K

其中,串在一起,定义了一个转换的数据向量 ϕ(x) 长度 K.

有很多方法,更好或更坏,可以做到这一点。您可能需要查找以下术语:

  1. 样条曲线和广义相加模型。
  2. 内核技巧(如何在哪里制作模型K)。
  3. 特征工程(手动类型,例如添加一个x2列到您的数据)。
  4. 深度学习、表征学习

正如您可能从如此多样化的技术包中猜到的那样,这是一个很大的领域。不言而喻,但必须注意避免过度拟合。

这篇论文Representation Learning: A Review and New Perspectives从深度学习的角度处理了一些关于什么使一组特定的特征“好”的问题。

我猜您正在寻找能够提取新特征的特征。最能代表数据集的特征。如果是这种情况,那么我们称这种方法为“特征提取”。