属性离散化

数据挖掘 聚类 k-均值 威卡
2022-02-21 19:24:50

我有一个数据集,需要使用无监督技术(聚类和关联规则)进行探索。离散数字属性的最佳策略是什么?此外,这(属性离散化)对聚类(使用 K-Means)有意义吗?

由于我使用的是 weka,我知道我可以使用 Discretize 过滤器,带有 findNumBins 选项或 useEqualFrequency。但是还有其他策略吗?

此外,对属性使用离散化,然后寻找集群(使用 K-Means)是否有意义?(我怀疑这没有多大意义,但我只是想确认一下)

谢谢!

1个回答

大多数聚类算法最适合使用连续值(特别是 k-means)。许多人不能使用分类属性,也不能很好地使用 one-hot 编码。