这是样本数据:
Values Attribute1 Attribute2 Attribute3 Attribute4
2.5 1980 A 1.5 C
1.8 2000 A 0.4 B
12.4 2017 S 18.5 D
0.4 1987 R 10 P
......
在我的真实数据中,我有 60 多个属性。我需要做的是:
- 将值分类为不同的组
- 使用 Attribute1 - Attribute4 对这些组进行分类。
一些困难是:
值在我的应用程序中意味着某些东西。例如,Values>10 将被归为一组。因此,使用基于密度的聚类算法将值分组可能并不理想。
当我使用基于值的组和所有属性来运行分类时,我可能需要选择一些重要的属性。
我想要的是为聚类算法提供值(有意义的数据)。因此,我可以从该聚类中获得最佳结果/见解。
所以,这是我的问题:
- 如何集群?
- 如何选择属性?