我有一个数据集 X,它有 10 个维度,其中 4 个是离散值。事实上,这 4 个离散变量是有序的,即更高的值意味着更高/更好的语义。
这些离散变量中有 2 个是分类变量,因为对于这些变量中的每一个,从 11 到 12 的距离与从 5 到 6 的距离不同。虽然较高的变量值意味着实际上较高,但规模是不一定是线性的(实际上并没有真正定义)。
我的问题是:
- 对包含离散变量和连续变量的数据集应用通用聚类算法(例如 K-Means,然后是高斯混合 (GMM))是否是个好主意?
如果不:
- 我应该删除离散变量并只关注连续变量吗?
- 我应该更好地离散连续数据并为离散数据使用聚类算法吗?