在诸如主成分分析、LDA 等降维技术中,经常使用术语流形。非技术术语中的流形是什么?如果一个点属于一个我想减少其维度的球体,并且如果存在噪声并且和不相关,那么实际点将由于噪声而彼此远离。因此,需要进行噪声过滤。因此,将对执行降维。因此,这里的和是否属于不同的流形?
我正在研究机器人视觉中经常使用的点云数据;由于采集中的噪声,点云很嘈杂,我需要在降维之前降低噪声。否则,我会得到不正确的降维。那么,这里的流形是什么,噪声是所属流形的一部分吗?
在诸如主成分分析、LDA 等降维技术中,经常使用术语流形。非技术术语中的流形是什么?如果一个点属于一个我想减少其维度的球体,并且如果存在噪声并且和不相关,那么实际点将由于噪声而彼此远离。因此,需要进行噪声过滤。因此,将对执行降维。因此,这里的和是否属于不同的流形?
我正在研究机器人视觉中经常使用的点云数据;由于采集中的噪声,点云很嘈杂,我需要在降维之前降低噪声。否则,我会得到不正确的降维。那么,这里的流形是什么,噪声是所属流形的一部分吗?
在非技术术语中,流形是具有有限维度的连续几何结构:线、曲线、平面、表面、球体、球、圆柱体、环面、“斑点”......像这样:
它是数学家用来表示“曲线”(维度 1)或“曲面”(维度 2)或 3D 对象(维度 3)的通用术语……对于任何可能的有限维度。一维流形只是一条曲线(线,圆......)。二维流形只是一个表面(平面、球体、圆环体、圆柱体......)。三维流形是一个“完整对象”(球、完整立方体、我们周围的 3D 空间……)。
流形通常由等式描述:点的集合,例如是一维流形(圆)。
流形在任何地方都具有相同的维度。例如,如果将一条线(维度 1)附加到球体(维度 2),则生成的几何结构不是流形。
与度量空间或拓扑空间的更一般概念也旨在描述我们对连续点集的自然直觉不同,流形旨在成为局部简单的东西:就像有限维向量空间:。这排除了通常没有几何具体含义的抽象空间(如无限维空间)。
与向量空间不同,流形可以有各种形状。有些流形很容易可视化(球体、球...),有些则很难可视化,例如克莱因瓶或真实的投影平面。
在统计学、机器学习或应用数学中,“流形”一词通常用于表示“像线性子空间”,但可能是弯曲的。任何时候你写一个线性方程,比如:,你都会得到一个线性(仿射)子空间(这里是一个平面)。通常,当方程是非线性的时,这是一个流形(这里是一个拉伸的球体)。
例如,ML 的“流形假设”说“高维数据是添加了高维噪声的低维流形中的点”。您可以想象添加了一些 2D 噪声的 1D 圆的点。虽然这些点并不完全在圆上,但它们在统计上满足方程。圆圈是底层流形:
一个(拓扑)流形是一个空间,它是:
(1)对于某些 “本地”“等效”到 n 。
“局部”,“等价”可以通过坐标函数,它们共同构成一个“结构保持”函数,,称为图表。
(2) 可以以“结构保持”的方式实现为一些的子集。(1) (2)
请注意,为了在这里使“结构”精确,需要理解拓扑的基本概念(def.),这允许人们对“局部”行为做出精确的概念,从而在上面“局部”。当我说“等价”时,我指的是等价拓扑结构(同胚),当我说“结构保持”时,我指的是同一件事(创建一个等价拓扑结构)。
还要注意,为了在流形上进行微积分,需要一个不遵循上述两个条件的附加条件,这基本上是说“图表表现良好,足以让我们进行微积分”。这些是实践中最常用的流形。与一般拓扑流形不同,除了微积分之外,它们还允许三角剖分,这在像您这样涉及点云数据的应用程序中非常重要。
请注意,并非所有人都对(拓扑)流形使用相同的定义。一些作者将其定义为仅满足上述条件(1),不一定也满足(2)。但是,同时满足 (1) 和 (2) 的定义表现得更好,因此对从业者更有用。人们可能直观地期望 (1) 暗示 (2),但实际上并非如此。
编辑:如果您有兴趣了解“拓扑”的确切含义,要理解的最重要的拓扑示例是\的欧几里得拓扑。这将在任何(好的)关于“真实分析”的介绍性书籍中深入介绍。
在这种情况下,术语歧管是准确的,但不必要地高调。从技术上讲,流形是足够平滑和连续的任何空间(具有拓扑结构的点集)(以某种方式,通过一些努力,可以在数学上明确定义)。
想象一下原始因子的所有可能值的空间。在降维技术之后,并非该空间中的所有点都可以得到。相反,只有在该空间内的某些嵌入子空间上的点才能获得。嵌入的子空间恰好满足了流形的数学定义。对于像 PCA 这样的线性降维技术,该子空间只是一个线性子空间(例如超平面),它是一个相对微不足道的流形。但是对于非线性降维技术,该子空间可能更复杂(例如弯曲的超曲面)。出于数据分析的目的,了解这些是子空间比您从知道它们满足流形的定义中得出的任何推论都重要得多。
正如 Bronstein 和其他人在《几何深度学习:超越欧几里得数据》中所说的那样(在此处阅读文章)
粗略地说,流形是一个局部欧几里得的空间。最简单的例子之一是模拟我们星球的球面:围绕一个点,它似乎是平面的,这导致几代人相信地球是平坦的。正式地说,(可微分的)d 维流形 X 是一个拓扑空间,其中每个点 x 都有一个邻域,该邻域在拓扑上与 d 维欧几里得空间等价(同胚),称为切空间。