k-means 可以用于非正态分布的数据吗?

机器算法验证 正态分布 异常值 k-均值
2022-03-27 07:44:10

我阅读了很多论文,这些论文使用许多非正态分布的数据集(如 iris 数据集)来测试 k-means,并获得了不错的结果。既然,我知道 k-means 用于正态分布的数据,为什么 k-means 用于非正态分布的数据?

例如,下面的论文根据正态分布曲线修改了 k-means 的质心,并用非正态分布的 iris 数据集测试了该算法。

几乎所有内点(准确地说是 99.73%)的点到质心距离都在总体平均值的 3 个标准差 (𝜎) 以内。

有什么我不明白的地方吗?

2个回答

这是完整的报价:

K-means 是高斯混合模型 (GMM) 的一个实例,它假设高斯数据分布 [20][26]。因此,几乎所有的内点(准确地说是 99.73%)的点到质心距离都在 3 个标准差以内(σ) 来自总体均值。

它出现在第 IV.A 节。

Iris 数据集的应用程序,正如您所注意到的,它不是正态分布的,出现在第 V 节(“实验”)中。

我认为首先在某些假设(例如正态性)下注意算法的属性,然后在假设无效的情况下对其进行测试,这没有逻辑问题。

当然,k-means 可以应用于任何数据集。它是否产生有用的结果是另一回事。

我不确定问题到底是什么,但标准偏差不仅仅是为正态分布定义的。这是一个与所有数据分布相关的度量。您离均值越远(就标准差而言),这一点就越不可能发生。关于标准偏差,正态分布的唯一特别之处在于您知道一个点出现在 1、2 或 3 个标准偏差内的概率(例如,您知道一个点有 99.7% 的概率位于±3均值的标准差)。

然而,这并不意味着标准偏差与其他(可能未知)分布无关。它仍然是相关的,但你不知道与之相关的概率。