想象一下,我有 10 万个用户和 1k 个类别。对于每个用户,最多 5 个类别,我知道他们花了多少钱。显然我的数据非常稀疏。
现在我想按用户在不同类别上花费的钱对他们进行分组。这样,我可以将某些类别中“便宜”和某些其他类别中“势利”的用户分组在一起。
在通过计算它们偏离类别均值的标准偏差次数来标准化这些值之后,我尝试了 k-means 聚类,但我最终发现一个集群变得越来越大,而其他集群缩小到仅包含少数用户的集群作为数字k-means 的迭代次数确实增加了。
如何解决稀疏数据问题的聚类?任何指针,建议或想法表示赞赏。