聚类谱

数据挖掘 分类 聚类 k-均值 主成分分析 谱聚类
2022-03-07 07:48:51

我有熊猫表,其中包含有关不同观察的数据,每一个都是以不同的波长测量的。这些观察结果在他们得到的治疗方面彼此不同。该表如下所示:

>>>name  treatment 410.1 423.2 445.6 477.1 485.2 ....
0 A1       0       0.01  0.02  0.04  0.05   0.87
1 A2       1       0.04  0.05  0.05  0.06  0.04
2 A3       2       0.03  0.02  0.03 0.01   0.03
3 A4       0       0.02  0.02  0.04  0.05  0.91
4 A5       1       0.05  0.06  0.04  0.05  0.02
...

我想根据光谱(数值列)对不同的观察结果进行分类。
我尝试运行 PCA 并根据观察得到的处理对其进行绘制,并将其与 k-means 和光谱聚类等分类结果进行比较,但我不确定我是否选择了正确的方法,因为似乎一直以来,就像集群太像欧几里得距离,我不确定它们是否考虑了光谱(我已经使用了所有的数值列进行预测)。

例如,PCA+颜色与光谱分类的比较:
PCA: 在此处输入图像描述

分类(根据PCA1 PCA2定位但颜色根据分类:
在此处输入图像描述

正如您在此处看到的,分类似乎是基于实际距离,我想要一些考虑到所有数值的东西。

所以,我正在寻找关于其他分类方法的任何见解,这些方法可以给我更好的结果,或者其他想法,我如何根据不同列中的测量值检查我的数据中是否存在集群,比如我是否可以预测治疗从集群

1个回答

这听起来像是一个正常的监督分类任务。

您是否也尝试过其他标准方法,如支持向量机、随机森林、梯度提升、kNN、神经网络等,或者您是否有特定原因只尝试聚类方法。

聚类方法(如 kmeans 或谱聚类)通常用于类成员资格不可用的无监督环境中。他们经常对可能违反的数据做出某些假设,例如,kmeans 假设球形集群,这显然不是您的数据的情况。