PCA表格中的样本行,是什么原因?

数据挖掘 主成分分析
2022-02-25 08:15:35

我遇到了一些 PCA 图,其中样本正在形成“线”,例如这个:

Herráez 等人 2009

或者这个:

http://www.ryantimpe.com/post/peabody-insta1/

什么样的数据可以生成这样的 PCA 图?这些 PCA 有什么问题吗?

2个回答

假设 PCA 正确完成,最终它是一个简单的线性变换,将数据投影到低维空间中,从而保留最大的方差。由于变换是线性的,它不会拉直或弯曲数据中可能存在的任何线,除非该线沿投影丢弃的方向之一弯曲。因此,如果数据在变换后形成线,则意味着它在原始空间中形成了一条线,或者它在一个平面上弯曲,该平面被投影为一条线。所以你展示的 PCA 对我来说看起来不错。

关于什么数据可以生成这样的线的问题:特征空间中的线意味着这些特征的强线性相关性,即假设存在函数是合理的x2=mx1+b与特征相关的x1x2.

通常(或常见情况)您会在应用 PCA 时找到这些行,这是找到那些主成分分析的结果,这意味着原始数据集的最大方差方向,即从您的数据中为您提供更多信息的组件数据。正如 scikit-learn 文档中的示例所解释的:PCA 在原始特征空间中找到正交方向,这些方向对应于最大方差的方向。