机器算法验证 - 聚类高维稀疏二进制数据 - 吾爱随笔录

我正在尝试根据他们的喜好对 Facebook 用户进行聚类。

我有两个问题：首先，由于 Facebook 中没有不喜欢，我所拥有的只是对某些项目有喜欢 (1)，但对于其余项目，该值是未知的，不一定为零（对应于不喜欢）。如果使用 0 表示未知数，那么我认为我的集群会有偏差。有什么建议吗？

其次，假设我将 0 分配给未知项目并对它们进行聚类，使用层次聚类方法使用二元测量距离，例如 Jaccard、Tanimoto、...

如何评估聚类结果？内部和外部 SSE 不适用于二进制数据。如果我使用中位数中心，恐怕它们中的大多数都会为零，因为我有一个稀疏的特征矩阵。那么评估集群的好方法是什么？