机器算法验证 - k-means 聚类算法是什么时候首次使用的？ - 吾爱随笔录

机器算法验证参考数据挖掘 k-均值历史

2022-04-03 12:05:29

K-means 可能是最常用的聚类算法之一。我一直在寻找第一次使用的参考书目，但它已经出现了很多，那么第一个是什么？此外，该算法何时首次命名为“k-means”？

3个回答

据我所知，“k-means”这个名字最早是在MacQueen (1967)中使用的。该名称指的是该论文中提出的改进算法，而不是原始算法。该论文的第 3 节包含一个应用程序（早期的论文如 Steinhaus (1956) 中缺少该应用程序）。

J.麦昆 (1967)。多变量观测分类和分析的一些方法。过程。第五伯克利症状。关于数学。统计学家。和概率，卷。1（加州大学出版社，1967 年），281--297。
斯坦豪斯 (1956)。Sur la Division des corps mat ́eriels en 派对。Bulletin de l'Académie Polonaise des Sciences, Classe III, vol. 四，没有。12, 801-804。

我最近复制了 Hugo Steinhaus 论文的一个版本：Sur la Division des corps matériels enparty（论物质身体的部分）。结论（最初是法语）是（不知何故）：

不同的问题，例如关于人类学类型的问题，或其他具有实际动机的问题，如工业对象标准化的问题，需要基于确定众多人口的虚构代表的解决方案，选择以尽可能减少总体元素与样本元素之间的偏差。测量每个实际元素和最接近的虚构元素之间的偏差。 $n$

我只能猜测它至少在此后被如此密切地使用过，但历史并没有跟踪。在他的论文中，H. Steinhaus 使用来命名质心（均值），而指代个子体中的每一个（可能来自德语Körper，字母表示自 R. Dedekind 以来数学中使用的字段）。 $A_i$ $K_i$ $n$ $K$

MacQueen 1967 年的论文激发了这个名字：

-means 概念代表了普通样本均值的 -means建立某种大数定律。 $k$ $k$

Ball 和 Hall 在 1965 年发表了另一篇展示 K-Means 聚类的早期论文 [1]。类似 K-Means 的算法是他们 ISODATA 算法的一部分。他们进一步实施了迭代集群拆分/合并阶段，以达到“最佳”数量的集群。纯 K-Means 将质心数作为给定。

[1] Ball, GH 和 Hall, DJ (1965) “ISODATA，一种新的数据分析和模式分类方法”。斯坦福研究所，门洛帕克

其它你可能感兴趣的问题