我正在尝试根据他们的喜好对 Facebook 用户进行聚类。
我有两个问题:首先,由于 Facebook 中没有不喜欢,我所拥有的只是对某些项目有喜欢 (1),但对于其余项目,该值是未知的,不一定为零(对应于不喜欢)。如果使用 0 表示未知数,那么我认为我的集群会有偏差。有什么建议吗?
其次,假设我将 0 分配给未知项目并对它们进行聚类,使用层次聚类方法使用二元测量距离,例如 Jaccard、Tanimoto、...
如何评估聚类结果?内部和外部 SSE 不适用于二进制数据。如果我使用中位数中心,恐怕它们中的大多数都会为零,因为我有一个稀疏的特征矩阵。那么评估集群的好方法是什么?