机器算法验证 - 星坐标与主成分分析 - 吾爱随笔录

机器算法验证数据可视化主成分分析大数据

2022-04-10 20:27:53

我目前正在为“可视化数据分析”的大学课程准备演讲。我的主题之一是“星坐标”可视化。星坐标

由于星坐标执行高维数据的转换，众所周知的 PCA 技术也是如此，我想知道星坐标是否可以模拟 PCA？我想以它们代表原始变量的线性组合的方式重新排列坐标轴？但这只是一个想法。有人可以证实或反驳这一点吗？

1个回答

PCA 和“星坐标”做不同的事情。 因为星坐标标准化了所有值，所以公平的比较会将 PCA 应用于相关矩阵（而不是协方差矩阵），这是标准化值的另一种方式。

PCA 识别适合数据形状的坐标系，而星坐标基于数据中最初的给定坐标。

这使得 PCA 在发现数据之间的关系方面更加灵活。相比之下，“星坐标”只不过是单变量信息的二维图形。
PCA（在相关矩阵上执行时）使用数据均值作为原点，使用标准差作为尺度。星坐标使用数据最小值作为原点，使用它们的范围作为比例尺。

最小值和范围对异常数据的敏感程度远高于标准差，这使得星坐标不太适合通用数据探索。

因此，每个都有其优势——尽管星坐标相对于 PCA 的特殊优势很难理解。

例如，考虑这两个 3D 数据集。每个由 300 个点组成，每个点云都有一个非常扁平的椭圆“煎饼”形状。（每个相关矩阵的奇异值接近。）该图的第一行显示了相关矩阵，第二行显示了伪 3D 的点云视图（大约定向捕获两个最大的主成分），最下面一行是相同点的“星坐标”图片。 $\{2, 1, .01\}$

由于这些点云相对于原始坐标轴的方向不同，因此星坐标图完全不同。这是特征：星坐标提供（非常有限的）关于原始坐标的信息，而 PCA 揭示坐标之间的关系。

您还可以看到星坐标是一种“意外”投影：有时它们会捕获数据的大主成分，如左手版本，有时它们会捕获大小分量（如右手），而在其他时候（未说明），它们只捕获小组件（并且所有点都密集地聚集在原点附近，几乎什么也没有）。

其它你可能感兴趣的问题