对于我的工作,我使用了这个网页的多标签数据集。页面中列出的少数数据集(例如bibtex)具有标称属性,即属性值为 0 和 1。
我的查询如下
在这些名义数据集上运行 kMeans 聚类算法以获得有意义的中心和目标标签是否有效?
否则,要运行 kMeans 算法(忘记目标标签),我需要将此标称数据集转换为数值数据集。做它的标准程序是什么。我可以对每个实例进行标准化,但它只是给了我一个实例值相等的实数。
我还想减少标称数据集的维度,例如 rcv1v2。我该怎么做。我可以使用任何特征选择技术,但它需要优化标准。但就我而言,我需要在这个数据集上比较不同算法的结果,这些算法有不同的优化标准,所以我在选择哪些标准时遇到了麻烦。有没有选择顶级功能的技术?