我正在尝试对数据进行聚类以提高蛮力 kNN 的效率。数据集由大量二进制特征描述的对象组成,每个特征都由 32 位哈希码标识。数据点可以理解为一个2^32
元素长的非常稀疏的二进制向量,在特征的哈希码表示的位置上位设置为 1。为简化起见,每个数据点都表示为一个哈希数组——如果我们知道哪些位设置为 1,我们就知道其中哪些位设置为 0。
我有一个工作距离函数(在此处提到),但很难在合理的时间内对数据集进行聚类。由于数据的二进制性质,不可能基于数据点的集合创建任何类型的平均值,因此 k-Centroids 不是一种选择。我尝试了 k-Clustroids,但它没有收敛,分层方法效率太低。您是否碰巧知道任何可以有效处理固定大小数据集的聚类算法,使用自定义度量计算方法而无需创建任何临时的质心数据点?
非常感谢。