我知道这个问题没有很好的定义,但一些集群往往是椭圆形的或位于低维空间中,而另一些则具有非线性形状(在 2D 或 3D 示例中)。
是否有任何衡量集群非线性(或“形状”)的方法?
请注意,在 2D 和 3D 空间中,查看任何簇的形状不是问题,但在更高维空间中,谈论形状是有问题的。特别是,是否有任何衡量凸簇如何的措施?
我受到许多其他聚类问题的启发,人们谈论聚类但没有人能够看到它们(在更高维空间中)。此外,我知道二维曲线有一些非线性度量。
我知道这个问题没有很好的定义,但一些集群往往是椭圆形的或位于低维空间中,而另一些则具有非线性形状(在 2D 或 3D 示例中)。
是否有任何衡量集群非线性(或“形状”)的方法?
请注意,在 2D 和 3D 空间中,查看任何簇的形状不是问题,但在更高维空间中,谈论形状是有问题的。特别是,是否有任何衡量凸簇如何的措施?
我受到许多其他聚类问题的启发,人们谈论聚类但没有人能够看到它们(在更高维空间中)。此外,我知道二维曲线有一些非线性度量。
我喜欢高斯混合模型(GMM)。
它们的特点之一是,在概率域中,它们的作用类似于分段插值器。这意味着它们可以充当替代基础,即通用逼近器。这意味着对于非高斯分布,如对数正态分布、威布尔分布或更疯狂的非解析分布,只要满足某些标准 - GMM 就可以近似分布。
因此,如果您知道使用 GMM 的 AICc 或 BIC 最优近似的参数,那么您可以将其投影到更小的维度。您可以旋转它,并查看近似 GMM 组件的主轴。
结果将是一种信息丰富且视觉可访问的方式,可以使用我们的 3D 视觉感知来查看高维数据的最重要部分。
编辑:(当然,呜呜)
有几种方法可以查看形状。
编辑:
形状是什么意思? 他们说特异性是所有良好沟通的灵魂。 “测量”是什么意思?
关于它可能意味着什么的想法:
大多数“几种方式”都是这些的一些变体。
这可能相当简单,但您可以通过对每个集群进行特征值分析来获得一些见解。
我会尝试将所有点分配给一个集群并用多元高斯拟合它们。然后您可以计算拟合协方差矩阵的特征值并绘制它们。有很多方法可以做到这一点;也许最著名和最广泛使用的称为主成分分析或 PCA。
一旦有了特征值(也称为频谱),您就可以检查它们的相对大小以确定集群在某些维度上的“延伸”程度。光谱越不均匀,星团越“雪茄形”,光谱越均匀,星团越呈球形。您甚至可以定义某种度量来指示特征值的不均匀程度(谱熵?);见http://en.wikipedia.org/wiki/Spectral_flatness。
作为附带的好处,您可以检查主成分(与大特征值相关的特征向量)以查看“雪茄形”集群在您的数据空间中指向的“位置”。
当然,这是对任意集群的粗略近似,因为它仅将集群中的点建模为单个椭圆体。但是,就像我说的,它可能会给你一些见解。
4C、ERiC 或 LMCLUS 等相关聚类算法通常将聚类视为线性流形。即 d 维空间中的 k 维超平面。好吧,对于 4C 和 ERiC 来说,它们只是局部线性的,所以它们实际上可以是非凸的。但他们仍然试图检测局部维度降低的集群。
在高维数据中寻找任意形状的簇是一个相当棘手的问题。特别是,由于维度灾难使搜索空间爆炸,同时如果您仍然想要显着的结果,还需要您拥有更大的输入数据。太多的算法没有关注他们发现的东西是否仍然重要或是否可能是随机的。
所以实际上我相信在考虑高维空间中复杂簇的非凸性的凸性之前还有其他问题需要解决。
还可以看看计算高维凸包的复杂性......
此外,您是否有一个超越好奇心的真实用例?
如果您的维度不高于 2 或 3,则可以将感兴趣的集群多次投影到 2D 空间并可视化结果或使用您的 2D 非线性测量。我之所以想到这一点,是因为 Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf方法。
随机投影可用于降低维度以建立索引。理论是,如果两个点在 D 维度上很接近,并且您使用 d 将随机投影到 d 维度
具体而言,您可以考虑将地球仪投影到平面上。无论你如何预测,纽约和新泽西都会在一起,但你很少会把纽约和伦敦推到一起。
我不知道这是否可以严格地帮助您,但这可能是一种可视化集群的快速方法。