我目前正在为“可视化数据分析”的大学课程准备演讲。我的主题之一是“星坐标”可视化。星坐标
由于星坐标执行高维数据的转换,众所周知的 PCA 技术也是如此,我想知道星坐标是否可以模拟 PCA?我想以它们代表原始变量的线性组合的方式重新排列坐标轴?但这只是一个想法。有人可以证实或反驳这一点吗?
我目前正在为“可视化数据分析”的大学课程准备演讲。我的主题之一是“星坐标”可视化。星坐标
由于星坐标执行高维数据的转换,众所周知的 PCA 技术也是如此,我想知道星坐标是否可以模拟 PCA?我想以它们代表原始变量的线性组合的方式重新排列坐标轴?但这只是一个想法。有人可以证实或反驳这一点吗?
PCA 和“星坐标”做不同的事情。 因为星坐标标准化了所有值,所以公平的比较会将 PCA 应用于相关矩阵(而不是协方差矩阵),这是标准化值的另一种方式。
PCA 识别适合数据形状的坐标系,而星坐标基于数据中最初的给定坐标。
这使得 PCA 在发现数据之间的关系方面更加灵活。相比之下,“星坐标”只不过是单变量信息的二维图形。
PCA(在相关矩阵上执行时)使用数据均值作为原点,使用标准差作为尺度。星坐标使用数据最小值作为原点,使用它们的范围作为比例尺。
最小值和范围对异常数据的敏感程度远高于标准差,这使得星坐标不太适合通用数据探索。
因此,每个都有其优势——尽管星坐标相对于 PCA 的特殊优势很难理解。
例如,考虑这两个 3D 数据集。每个由 300 个点组成,每个点云都有一个非常扁平的椭圆“煎饼”形状。(每个相关矩阵的奇异值接近。)该图的第一行显示了相关矩阵,第二行显示了伪 3D 的点云视图(大约定向捕获两个最大的主成分),最下面一行是相同点的“星坐标”图片。

由于这些点云相对于原始坐标轴的方向不同,因此星坐标图完全不同。这是特征:星坐标提供(非常有限的)关于原始坐标的信息,而 PCA 揭示坐标之间的关系。
您还可以看到星坐标是一种“意外”投影:有时它们会捕获数据的大主成分,如左手版本,有时它们会捕获大小分量(如右手) ,而在其他时候(未说明),它们只捕获小组件(并且所有点都密集地聚集在原点附近,几乎什么也没有)。