为什么 K-harmonic 均值对随机初始化的敏感性不如 K-means?

数据挖掘 机器学习 k-均值 聚类
2021-10-03 04:09:32

众所周知,K-Means 是一种强大的聚类,但是由于初始化错误,它经常遇到局部最小值问题。解决方案之一是 K-Harmonic 意味着使用谐波平均值作为性能函数,而不是数据和集群质心的最小距离。我很好奇为什么使用调和函数对初始化质心的敏感性低于普通的 K-Means。

1个回答

调和平均值对异常值不太敏感。

假设您有 3 个数字:1 130001

它们的算术平均值(平均值)10001和调和平均值2更接近大多数点。

所以在某种程度上,使用调和平均值更宽容。

贝叶斯观察调和平均值

假设一个点越接近,它就越有可能在一个集群中。

可以选择对距原点的距离分布进行建模,作为具有先验的 Gamma-Exponential 模型α=mβ=mμ0在哪里μ0是初始均值和m是先验的强度。

并给出观察{d1,d2,,dn},更新后的模型的平均值为:

μ=m+nmμ0+1d1+1d2++1dn
我们得到了我们心爱的谐波平均值。

您可能会争辩说,k-means 上下文中的调和平均值是对距离分布的假设。