我有 90k 积分(即,一个 90k x 32 实矩阵),我想可视化。我知道我可以聚类我的点(k-means &c),但我想在,在那里投影点并散点图。
如何选择要投影到的有趣的 2 平面?
我有 90k 积分(即,一个 90k x 32 实矩阵),我想可视化。我知道我可以聚类我的点(k-means &c),但我想在,在那里投影点并散点图。
如何选择要投影到的有趣的 2 平面?
您可以从一些有趣的图表和转换开始,每个都取决于您的分析目的。以下是我可能会采取的一些第一步。
如果只是在视觉上寻找集群:
如果集群是您所追求的,那么我建议对数据集应用主成分分析,然后以前 2 个主成分为轴绘制数据集。但是,PCA 的主要缺点是您必须“解包”主成分才能找到原始变量。换句话说,您可能能够识别出很酷的集群,但是将发现与您的 32 个变量联系起来会有点困难。
如果要寻找要建立的变量之间的快速关系:
使用“仅”32 个变量,您可以进行成对绘图。然而,更聪明的方法可能是首先在数学上识别关系(例如相关性),然后绘制这些变量。
如果在每个变量中寻找快速关系来构建:或者,从 32 个直方图开始。寻找清晰的双峰(或更多),开始拼凑了解您的变量如何有助于无监督模型。如果您最终查看 32 个单峰直方图,那么您可以尽早得出结论,无论您如何聚类,您最终都会得到一个 blob。
实际上,在通常的分析工作流程中,我会采用 3 > 2 > 1。但如果我正在寻找集群并且只是想看看集群是否会出现,PCA 将是一个很好的捷径。
此外,请随意对您的数据集进行采样。屏幕上的 90k 点可能弊大于利。