在机器学习中,经常假设一个数据集位于一个光滑的低维流形上(流形假设),但是有没有办法证明假设满足某些条件,那么数据集确实(近似)生成来自低维光滑流形?
例如,给定一个数据序列在哪里(比如说不同角度的人脸图像序列)和对应的标签序列在哪里 (比如面部序列的角度)。假设当和非常接近,他们的标签和也很接近,我们可以想象很可能位于低维流形上。这是真的?如果是这样,我们如何证明呢?或者序列需要满足什么条件才能证明流形假设为真?
在机器学习中,经常假设一个数据集位于一个光滑的低维流形上(流形假设),但是有没有办法证明假设满足某些条件,那么数据集确实(近似)生成来自低维光滑流形?
例如,给定一个数据序列在哪里(比如说不同角度的人脸图像序列)和对应的标签序列在哪里 (比如面部序列的角度)。假设当和非常接近,他们的标签和也很接近,我们可以想象很可能位于低维流形上。这是真的?如果是这样,我们如何证明呢?或者序列需要满足什么条件才能证明流形假设为真?
通过查看对“多种假设”的许多描述,很快就会发现,许多作家对其含义都特别草率。更仔细的人用一个微妙但非常重要的警告来定义它:数据位于或接近低维流形。
即使那些不包括“或接近”子句的人也清楚地采用流形假设作为近似虚构,便于进行数学分析,因为他们的应用程序必须考虑数据和估计的流形之间的偏差。事实上,许多作者后来引入了一种明确的偏差机制,例如考虑回归反对在哪里被限制在流形上 但是可能包括随机偏差。 这相当于假设元组靠近但不一定在沉浸式形式的维流形
对于一些平滑(回归)函数. 因为我们可以查看所有的扰动点,它们仅接近于(一种维流形),如位于维流形,这有助于解释为什么在理论上区分“on”和“close to”的这种草率可能并不重要。
“开启”和“接近”之间的区别对于应用程序来说非常重要。 “接近”允许数据可能偏离歧管。因此,如果您选择估计流形,则可以量化数据和流形之间的典型偏差量。当典型的偏差量较小时,一个安装的歧管将比另一个更好,在其他条件不变的情况下。
该图显示了数据流形假设的两个版本(大蓝点):黑色流形相对简单(仅需要四个参数来描述)但仅“接近”数据,而红色虚线流形拟合数据完美但很复杂(需要 17 个参数)。
与所有此类问题一样,在描述流形的复杂性和拟合优度(过拟合问题)之间存在权衡。总是可以找到一个一维流形来拟合任何有限数量的数据完美(就像图中的红色虚线流形一样,只需以任意顺序通过所有点运行一条平滑曲线:几乎可以肯定它不会与自身相交,但如果确实如此,则扰乱任何此类交点附近的曲线以消除它)。在另一个极端,如果只允许有限类别的流形(例如仅直欧几里得超平面),那么无论尺寸如何,都可能无法进行良好的拟合,并且数据与拟合之间的典型偏差可能很大。
这导致了一种评估流形假设的简单实用的方法:如果从流形假设发展而来的模型/预测器/分类器工作得很好,那么该假设是合理的。因此,在该问题中寻求的适当条件将是一些相关的拟合优度度量是可以接受的小。(什么度量?这取决于问题,相当于选择了一个损失函数。)
不同维度的流形(对它们的曲率有不同类型的约束)可能同样适合数据——并预测保留的数据——同样好。 一般来说,没有什么可以“证明”关于“底层”流形的,尤其是在处理大型、混乱的人类数据集时。我们通常所能希望的是,装配好的歧管是一个很好的模型。
如果您没有提出一个好的模型/预测器/分类器,那么流形假设无效,您假设流形的维度太小,或者您看起来不够努力或不够好。
任何有限的点集都可以适合任何流形(需要定理参考,我不记得定理是什么,我只记得来自 uni 的这个事实)。
如果不想识别所有点,则可能的最低维度为 1。
举个简单的例子,给定 N 个 2d 点,存在一些 N - 1 阶多项式,其中所有 N 个点都位于该多项式上。因此,对于任何 2d 数据集,我们都有一个 1d 流形。我认为任意维度的逻辑是相似的。
所以,这不是问题,真正的假设是关于流形的结构/简单性,特别是在将连接的黎曼流形视为度量空间时。我读过关于这个多方面恶作剧的论文,如果你仔细阅读,就会发现一些相当大的假设出现了!
所做的假设是当假设“接近性”的诱导定义“保留我们数据集中的信息”时,但由于这没有在信息论术语中正式定义,因此结果定义是非常临时的并且确实是一个相当大的假设。特别是,问题似乎是保留了“接近”,即两个接近点保持接近,但“远”不是,因此两个“远”点不会保持很远。
总之,我会非常警惕机器学习中的这种诡计,除非它知道数据集确实是自然欧几里得,例如视觉模式识别。我不会认为这些方法适用于更普遍的问题。