我正在尝试使用“在线学习”构建一个 K-means 聚类系统,即其中存在现有的 K 个聚类和数据点,并且定期有一个新的数据点发送到适当的聚类。
当我尝试重新集群/重新分配时,就会出现问题,因为每个新数据点都会变得越来越昂贵。有人可以为此推荐一种解决方法吗?
我正在尝试使用“在线学习”构建一个 K-means 聚类系统,即其中存在现有的 K 个聚类和数据点,并且定期有一个新的数据点发送到适当的聚类。
当我尝试重新集群/重新分配时,就会出现问题,因为每个新数据点都会变得越来越昂贵。有人可以为此推荐一种解决方法吗?
阅读原始的 k-means 文献。
MacQueen 出版物基于通过添加单点来更新结果。
现在大多数人似乎都在使用 Lloyd 迭代,您可以在其中进行典型的 EM 迭代,有点像 MacQueen 的“批量版本”。