PCA表格中的样本行,是什么原因?
数据挖掘
主成分分析
2022-02-25 08:15:35
2个回答
假设 PCA 正确完成,最终它是一个简单的线性变换,将数据投影到低维空间中,从而保留最大的方差。由于变换是线性的,它不会拉直或弯曲数据中可能存在的任何线,除非该线沿投影丢弃的方向之一弯曲。因此,如果数据在变换后形成线,则意味着它在原始空间中形成了一条线,或者它在一个平面上弯曲,该平面被投影为一条线。所以你展示的 PCA 对我来说看起来不错。
关于什么数据可以生成这样的线的问题:特征空间中的线意味着这些特征的强线性相关性,即假设存在函数是合理的与特征相关的和.
通常(或常见情况)您会在应用 PCA 时找到这些行,这是找到那些主成分分析的结果,这意味着原始数据集的最大方差方向,即从您的数据中为您提供更多信息的组件数据。正如 scikit-learn 文档中的示例所解释的:PCA 在原始特征空间中找到正交方向,这些方向对应于最大方差的方向。

