数据可视化是否足以表明数据的可分离性?数据分离的其他迹象是什么?

机器算法验证 分类 主成分分析 数据可视化 模式识别
2022-04-18 00:11:34

换句话说,假设我们有一个如下图所示的数据表示,它是从 PCA 生成的,即数据在前两台 PC 上的投影。如二维空间所示,数据不可分离。这是否很好地表明该数据不可分离?还有哪些其他指标可用于确定数据分离?

在此处输入图像描述

1个回答

这里有一个不对称值得注意。

如果 PCA 图显示了不同的、分离的簇,那么它就是数据可分离性的明确证据。但是PCA 图中没有这种结构(例如在您的示例中)并不是缺乏可分离性的证据。

这是因为(如评论中所指出的)您上面的二维图省略了数据集中的信息,假设它包含 >2 维。您可能只是在查看错误的尺寸!没有规则说您感兴趣的数据模式或结构必须出现在前两个主要组件中;它们只是数据集中变化最大的维度。完全有可能具有较少变化的维度(即主成分 3、或 4 或其他)成为数据明显可分离的维度。

如果您对可分离性和确定促成这一点的维度感兴趣,PCA 可能不是最有用的工具。正如@naught101 所建议的,聚类方法可能更有用。