利用特征之间共线性的先验知识进行降维

数据挖掘 降维 主成分分析 特纳
2022-02-20 17:52:20

假设我有稀疏的特征向量,我想使用降维来更容易地可视化它们。

像 PCA 这样的降维技术将估计给定数据的特征之间的共线性。如果我对我的特征之间的共线性有一些先验知识怎么办?如在,我将能够在我的特征之间创建一个近似的距离矩阵,因此在我的数据点之间。

我知道如果特征实际上是共线性的,那么像 PCA 这样的方法会找到减少它们的方法,但是,我担心我没有足够的数据点来严格地从数据中推断出共线性,并且 PCA 会删除有意义的特征并保留无信息的。

假设我的数据看起来像这样:

x0={1,NaN,1,NaN}

x1={1,NaN,NaN,1}

就我而言,我知道第 3 和第 4 个特征是共线的,并且之间的距离接近于零。因此,它们应该映射到低维空间中非常相似的数据点。x0x1

PCA 还能用这么少的数据点做吗?有没有办法“强制”已知的共线性或距离测量?也许是 T-SNE?

1个回答

一种选择是使用多维缩放(MDS)进行降维。MDS 可以根据数据点之间的距离创建数据相对位置的可视化。

在您的示例中,在多个维度上它们之间没有距离的数据点将彼此靠近投影。