机器算法验证 - 如何测量簇的形状？ - 吾爱随笔录

如何测量簇的形状？

机器算法验证无监督学习聚类

2022-03-12 21:41:32

我知道这个问题没有很好的定义，但一些集群往往是椭圆形的或位于低维空间中，而另一些则具有非线性形状（在 2D 或 3D 示例中）。

是否有任何衡量集群非线性（或“形状”）的方法？

请注意，在 2D 和 3D 空间中，查看任何簇的形状不是问题，但在更高维空间中，谈论形状是有问题的。特别是，是否有任何衡量凸簇如何的措施？

我受到许多其他聚类问题的启发，人们谈论聚类但没有人能够看到它们（在更高维空间中）。此外，我知道二维曲线有一些非线性度量。

4个回答

我喜欢高斯混合模型（GMM）。

它们的特点之一是，在概率域中，它们的作用类似于分段插值器。这意味着它们可以充当替代基础，即通用逼近器。这意味着对于非高斯分布，如对数正态分布、威布尔分布或更疯狂的非解析分布，只要满足某些标准 - GMM 就可以近似分布。

因此，如果您知道使用 GMM 的 AICc 或 BIC 最优近似的参数，那么您可以将其投影到更小的维度。您可以旋转它，并查看近似 GMM 组件的主轴。

结果将是一种信息丰富且视觉可访问的方式，可以使用我们的 3D 视觉感知来查看高维数据的最重要部分。

编辑：（当然，呜呜）

有几种方法可以查看形状。

你可以看看趋势的手段。对数正态由一系列高斯近似，这些高斯的平均值逐渐接近，其权重随着进展而变小。总和近似于较重的尾巴。在 n 维中，一系列这样的组件将构成一个波瓣。您还可以跟踪均值（转换为高维）和方向余弦之间的距离。这将转换为更易于访问的维度。
您可以创建一个 3d 系统，其轴是权重、均值的大小和方差/协方差的大小。如果您的集群计数非常高，这是一种比较它们的方法。将 50k 个零件与 2k 个测量值转换为 3d 空间中的几朵云，这是一种很有价值的方法。如果我愿意，我可以在那个空间执行过程控制。我喜欢使用基于高斯混合模型的递归控制高斯混合模型的组件拟合零件参数。
在整理方面，您可以通过非常小的重量或按协方差的重量等丢弃。
、到组件或整体的马氏距离、成员概率或整体概率来绘制 GMM 云。 $R^2$
您可以将其视为相交的气泡。每对 GMM 簇之间存在等概率的位置（零 Kullback-Leibler 散度）。如果您跟踪该位置，则可以按该位置的成员概率进行过滤。它将为您提供分类边界点。这将帮助您隔离“孤独者”。您可以计算每个成员超过阈值的此类边界的数量，并获取每个组件的“连接性”列表。您还可以查看位置之间的角度和距离。
您可以使用给定高斯 PDF 的随机数对空间进行重新采样，然后对其进行主成分分析，并查看与它们相关的特征形状和特征值。

编辑：

形状是什么意思？ 他们说特异性是所有良好沟通的灵魂。 “测量”是什么意思？

关于它可能意味着什么的想法：

眼球标准感觉/一般形式的感觉。（非常定性，视觉可访问性）
测量 GD&T 形状（共面性、同心度等）（非常定量）
一些数字（特征值、协方差等）
一个有用的降维坐标（如 GMM 参数成为维度）
降低噪音的系统（以某种方式平滑，然后呈现）

大多数“几种方式”都是这些的一些变体。

这可能相当简单，但您可以通过对每个集群进行特征值分析来获得一些见解。

我会尝试将所有点分配给一个集群并用多元高斯拟合它们。然后您可以计算拟合协方差矩阵的特征值并绘制它们。有很多方法可以做到这一点；也许最著名和最广泛使用的称为主成分分析或 PCA。

一旦有了特征值（也称为频谱），您就可以检查它们的相对大小以确定集群在某些维度上的“延伸”程度。光谱越不均匀，星团越“雪茄形”，光谱越均匀，星团越呈球形。您甚至可以定义某种度量来指示特征值的不均匀程度（谱熵？）；见http://en.wikipedia.org/wiki/Spectral_flatness。

作为附带的好处，您可以检查主成分（与大特征值相关的特征向量）以查看“雪茄形”集群在您的数据空间中指向的“位置”。

当然，这是对任意集群的粗略近似，因为它仅将集群中的点建模为单个椭圆体。但是，就像我说的，它可能会给你一些见解。

4C、ERiC 或 LMCLUS 等相关聚类算法通常将聚类视为线性流形。即 d 维空间中的 k 维超平面。好吧，对于 4C 和 ERiC 来说，它们只是局部线性的，所以它们实际上可以是非凸的。但他们仍然试图检测局部维度降低的集群。

在高维数据中寻找任意形状的簇是一个相当棘手的问题。特别是，由于维度灾难使搜索空间爆炸，同时如果您仍然想要显着的结果，还需要您拥有更大的输入数据。太多的算法没有关注他们发现的东西是否仍然重要或是否可能是随机的。

所以实际上我相信在考虑高维空间中复杂簇的非凸性的凸性之前还有其他问题需要解决。

还可以看看计算高维凸包的复杂性......

此外，您是否有一个超越好奇心的真实用例？

如果您的维度不高于 2 或 3，则可以将感兴趣的集群多次投影到 2D 空间并可视化结果或使用您的 2D 非线性测量。我之所以想到这一点，是因为 Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf方法。

随机投影可用于降低维度以建立索引。理论是，如果两个点在 D 维度上很接近，并且您使用 d 将随机投影到 d 维度

具体而言，您可以考虑将地球仪投影到平面上。无论你如何预测，纽约和新泽西都会在一起，但你很少会把纽约和伦敦推到一起。

我不知道这是否可以严格地帮助您，但这可能是一种可视化集群的快速方法。

其它你可能感兴趣的问题

上一篇时间序列分析的历史有哪些好的资源？下一篇分层贝叶斯模型与经验贝叶斯