K-means 可能是最常用的聚类算法之一。我一直在寻找第一次使用的参考书目,但它已经出现了很多,那么第一个是什么?此外,该算法何时首次命名为“k-means”?
k-means 聚类算法是什么时候首次使用的?
机器算法验证
参考
数据挖掘
k-均值
历史
2022-04-03 12:05:29
3个回答
据我所知,“k-means”这个名字最早是在MacQueen (1967)中使用的。该名称指的是该论文中提出的改进算法,而不是原始算法。该论文的第 3 节包含一个应用程序(早期的论文如 Steinhaus (1956) 中缺少该应用程序)。
- J.麦昆 (1967)。多变量观测分类和分析的一些方法。过程。第五伯克利症状。关于数学。统计学家。和概率,卷。1(加州大学出版社,1967 年),281--297。
- 斯坦豪斯 (1956)。Sur la Division des corps mat ́eriels en 派对。Bulletin de l'Académie Polonaise des Sciences, Classe III, vol. 四,没有。12, 801-804。
我最近复制了 Hugo Steinhaus 论文的一个版本:Sur la Division des corps matériels enparty(论物质身体的部分)。结论(最初是法语)是(不知何故):
不同的问题,例如关于人类学类型的问题,或其他具有实际动机的问题,如工业对象标准化的问题,需要基于确定众多人口的 虚构代表的解决方案,选择以尽可能减少总体元素与样本元素之间的偏差。测量每个实际元素和最接近的虚构元素之间的偏差。
我只能猜测它至少在此后被如此密切地使用过,但历史并没有跟踪。在他的论文中,H. Steinhaus 使用来命名质心(均值),而指代个子体中的每一个(可能来自德语Körper,字母表示自 R. Dedekind 以来数学中使用的字段)。
MacQueen 1967 年的论文激发了这个名字:
-means 概念代表了普通样本均值的 -means建立某种大数定律。
Ball 和 Hall 在 1965 年发表了另一篇展示 K-Means 聚类的早期论文 [1]。类似 K-Means 的算法是他们 ISODATA 算法的一部分。他们进一步实施了迭代集群拆分/合并阶段,以达到“最佳”数量的集群。纯 K-Means 将质心数作为给定。
[1] Ball, GH 和 Hall, DJ (1965) “ISODATA,一种新的数据分析和模式分类方法”。斯坦福研究所,门洛帕克
其它你可能感兴趣的问题