使用不对称距离度量进行聚类

机器算法验证 聚类 距离
2022-03-03 21:29:24

如何使用非对称距离度量对特征进行聚类?

例如,假设您正在以星期几作为特征对数据集进行聚类 - 从星期一到星期五的距离与从星期五到星期一的距离不同。

您如何将其纳入聚类算法的距离测量中?

4个回答

如果 MF 距离是不对称的,因为未来与过去不同,则需要真正的不对称聚类。首先,必须定义一个非对称距离函数。

给定距离函数的不对称聚类的一种方法是将原始数据嵌入到新的坐标空间中。请参阅 Naohito Chino 和 Kenichi Shiraiwa 撰写的“非对称 MDS 的一些非距离模型的几何结构”,Behaviormetrika,1992 年 ( pdf )。这称为 HCM(Hermitian 规范模型)。

查找 Hermitian 矩阵H, 在哪里

Hij=12[d(xi,xj)+d(xj,xi)]+i12[d(xi,xj)d(xj,xi)]
找到特征值和特征向量,然后将每个特征向量按其对应特征值的平方根缩放。

这将数据转换为复数空间。嵌入数据后,对象 x 和 y 之间的距离就是 x * y,其中 * 是共轭转置。此时,您可以在复数向量上运行 k-means。

光谱不对称聚类也已经完成,参见 Stefan Emilov Atev 的论文“在轨迹的光谱聚类中使用不对称”,明尼苏达大学,2011 年,该论文为特殊算法提供了 MATLAB 代码。

您可以采用某种平均值(例如算术平均值,或者对于概率分布,Jensen-Shannon 散度的平方根。)

您应该查看循环统计信息(如果您想在“一周内”工作)

如果您的距离函数不是有效的 Mercer 内核,那么XXT, 在哪里X是格拉姆矩阵。在这种情况下想要共同聚类,也称为双聚类。此类算法同时为行和列生成聚类指标。

您给出的示例是距离度量选择不当的结果。更好的距离度量是|days apart|

通常,您的距离函数应该是有效的 Mercer 内核。一个有效的 Mercer 核是任何具有两个连续、对称且具有正定协方差矩阵的观测值的函数xD.