术语:聚类上下文中的“平面几何”

数据挖掘 聚类 术语
2021-10-13 03:00:22

Sklearn 的文档引用了集群的“平面”或“非平面”几何形状来描述其实现的聚类算法的用例。这些术语没有直接定义。但是,以下引用指出:

当簇具有特定形状(即非平面流形)并且标准欧几里德距离不是正确的度量时,非平面几何聚类很有用。

到目前为止,我确实理解一个流形类型的形状很难用一个聚类中心来表示,并且聚类这样的数据集应该依赖于局部密度、最近邻或连接约束。但是,根据维基百科的定义,我不明白它与平坦度概念的关系:

在几何学中,平面是欧几里得空间的子集,与低维欧几里得空间一致。

这对我来说似乎很矛盾。例如,超球面在几何上不是平坦的,但使用 sklearn 的术语会是平坦的。

我的问题是:

  • 平面和非平面几何是机器学习和统计中的合法术语吗?
  • 如果是,数学定义是什么?
  • 如果不是,最合适的选择是什么?(例如流形与凸形???)
1个回答

平面和非平面几何是机器学习和统计中的合法术语吗?

这些是数学中的术语,它们在任何领域都有效。

数学定义是什么?

(非)平面歧管

在数学中,如果曲率处处为零,则称(黎曼)流形平坦的;否则不平。这与几何中平面物体的定义有很大不同根据该定义,只有点、线和超平面是平坦的(例如超球面或线段)。

例如,设置{(t,t):t(1,1)}是一维平面流形R2, 放{(t,t2):t(1,1)}是一维非平面(正弯曲)流形R2, 超球面是nD 非平面(正弯曲)歧管Rn+1.

因此,具有(非)扁平形状的簇对应于(非)扁平歧管。

以下是文档中的一些示例。

在此处输入图像描述

点集中在(A)两个非凸的一维非平面流形(圆),(B)两个非凸的一维非平面流形(弧),(C)三个一维平面流形(段)它们是凸的,(D)三个凸的 0D 平面流形(中心作为点)。

(非)平面几何与平面

该文件中的“平面几何”是指“欧几里得几何”而不是“几何中定义的平面对象”。如果我们通过欧几里得距离来测量距离(因此是长度、面积、体积等),我们就遵循欧几里得几何,否则,我们就遵循非欧几何。例如,如果我们通过遵循非平面流形(测地线)来测量两点之间的距离,则我们遵循的是非欧几里得几何。作为例证,

在此处输入图像描述

在 (A) 中,红线测量服从平面几何的距离,蓝线测量服从非平面几何的距离(通过沿非平面流形移动)。如果流形到较低维度的适当映射是可能的(B),则服从平面几何将等同于在映射之前服从非平面几何。