假设我有稀疏的特征向量,我想使用降维来更容易地可视化它们。
像 PCA 这样的降维技术将估计给定数据的特征之间的共线性。如果我对我的特征之间的共线性有一些先验知识怎么办?如在,我将能够在我的特征之间创建一个近似的距离矩阵,因此在我的数据点之间。
我知道如果特征实际上是共线性的,那么像 PCA 这样的方法会找到减少它们的方法,但是,我担心我没有足够的数据点来严格地从数据中推断出共线性,并且 PCA 会删除有意义的特征并保留无信息的。
假设我的数据看起来像这样:
就我而言,我知道第 3 和第 4 个特征是共线的,并且和之间的距离接近于零。因此,它们应该映射到低维空间中非常相似的数据点。
PCA 还能用这么少的数据点做吗?有没有办法“强制”已知的共线性或距离测量?也许是 T-SNE?