众所周知,K-Means 是一种强大的聚类,但是由于初始化错误,它经常遇到局部最小值问题。解决方案之一是 K-Harmonic 意味着使用谐波平均值作为性能函数,而不是数据和集群质心的最小距离。我很好奇为什么使用调和函数对初始化质心的敏感性低于普通的 K-Means。
为什么 K-harmonic 均值对随机初始化的敏感性不如 K-means?
数据挖掘
机器学习
k-均值
聚类
2021-10-03 04:09:32
1个回答
调和平均值对异常值不太敏感。
假设您有 3 个数字:1
1
和30001
它们的算术平均值(平均值)10001
和调和平均值2
更接近大多数点。
所以在某种程度上,使用调和平均值更宽容。
贝叶斯观察调和平均值
假设一个点越接近,它就越有可能在一个集群中。
可以选择对距原点的距离分布进行建模,作为具有先验的 Gamma-Exponential 模型和在哪里是初始均值和是先验的强度。
并给出观察,更新后的模型的平均值为:
我们得到了我们心爱的谐波平均值。
您可能会争辩说,k-means 上下文中的调和平均值是对距离分布的假设。
其它你可能感兴趣的问题