我试图弄清楚流形假设在半监督学习中的含义。谁能用简单的方式解释一下?我无法理解它背后的直觉。
它表示您的数据位于嵌入在高维空间中的低维流形上。我没明白那是什么意思。
我试图弄清楚流形假设在半监督学习中的含义。谁能用简单的方式解释一下?我无法理解它背后的直觉。
它表示您的数据位于嵌入在高维空间中的低维流形上。我没明白那是什么意思。
想象一下,您将一束种子固定在玻璃板上,玻璃板上水平放置在桌子上。由于我们通常考虑空间的方式,可以肯定地说这些种子或多或少地生活在二维空间中,因为每个种子都可以通过两个数字来识别,这两个数字给出了该种子在地球表面上的坐标玻璃。
现在想象你拿起盘子,将它斜向上倾斜,这样玻璃的表面就不再与地面水平了。现在,如果你想找到其中一颗种子,你有几个选择。如果您决定忽略玻璃,那么每个种子似乎都漂浮在桌子上方的三维空间中,因此您需要使用三个数字来描述每个种子的位置,每个空间方向一个。但是仅仅通过倾斜玻璃,你并没有改变种子仍然生活在二维表面上的事实。因此,您可以描述玻璃表面如何位于三维空间中,然后您可以使用原始二维空间描述玻璃上种子的位置。
在这个思想实验中,玻璃表面类似于存在于高维空间中的低维流形:无论你如何在三个维度上旋转板,种子仍然沿着二维平面的表面存在。
更一般地说,嵌入在高维空间中的低维流形只是一组点,无论出于何种原因,这些点都被认为是连接的或同一组的一部分。值得注意的是,歧管在高维空间中可能会以某种方式扭曲(例如,玻璃表面可能会扭曲成碗状而不是板状),但歧管仍然基本上是低维的。尤其是在高维空间中,这个流形可以有很多不同的形式和形状,但是因为我们生活在一个三维世界中,很难想象有超过三个维度的例子。但是,作为示例,请考虑以下示例:
机器学习中流形的常见示例(或至少假设为沿着低维流形存在的集合)包括:
机器学习中的多种假设是,与其假设世界上的数据可能来自可能空间的每个部分(例如,所有可能的 1 兆像素图像的空间,包括白噪声),不如假设更有意义训练数据来自相对低维的流形(如带有种子的玻璃板)。那么学习流形的结构就成了一项重要的任务;此外,在不使用标记训练数据的情况下,这种学习任务似乎是可能的。
学习低维流形的结构有很多很多不同的方法。最广泛使用的方法之一是 PCA,它假设流形由嵌入在更高维空间中的单个椭圆形“斑点”组成,如煎饼或雪茄形状。更复杂的技术(如 isomap、ICA 或稀疏编码)以各种方式放宽了其中一些假设。
流形假设在半监督学习中很重要的原因有两个。对于许多实际任务(例如,确定图像中的像素是显示 4 还是 5),世界上没有标签(例如,其中可能有数字的图像)比有标签(例如,明确标记为“4”或“5”的图像)。此外,图像像素中的可用信息比具有标签的图像的标签中的信息多许多数量级。但是,就像我上面描述的那样,自然图像实际上并不是从像素配置上的均匀分布中采样的,因此似乎有一些流形可以捕获自然图像的结构。流形,虽然包含 5 的图像同样位于不同但附近的流形上,但我们可以尝试仅使用像素数据为这些流形中的每一个开发表示,希望不同的流形将使用数据的不同学习特征来表示。然后,稍后,当我们有一些可用的标签数据时,我们可以使用这些位简单地将标签应用于已经识别的流形。
这种解释大部分来自深度和特征学习文献中的工作。Yoshua Bengio和Yann LeCun——参见基于能量的学习教程,在这方面有特别容易理解的论点。
首先,确保您了解什么是嵌入。它是从数学中借来的。粗略地说,它是将数据映射到另一个空间(通常称为嵌入空间或特征空间),保留数据的某些结构或属性。请注意,它的维度可以大于或小于输入空间。在实践中,映射是复杂且高度非线性的。几个例子:
为了说明,我将以Josh Tenenbaum的这篇论文为例:
图 1 以视觉感知为例说明了特征发现问题。当在计算机或视网膜上表示为图像阵列时,所有可能视点的面部视图集是一个非常高维的数据集;例如,可以将 32 x 32 像素的灰度图像视为 1,024 维观察空间[输入空间]中的点。然而,这些图像[特征空间]的感知意义结构的维度要低得多;图 1 中的所有图像都位于由视角参数化的二维流形上
Josh Tenenbaum 随后讨论了学习这种从输入到特征空间的映射的困难。但是让我们回到这个问题:我们感兴趣的是输入和特征空间是如何相关的。
32*32 array of grey pixel values
输入空间[x1=elevation, x2=azimuth]
空间就是特征空间(虽然简单,但可以认为是一个有效的嵌入空间)。重新陈述流形假设(引自这篇伟大的文章):
流形假设是自然数据在其嵌入空间中形成低维流形
在这个例子中,很明显嵌入空间的维数远小于输入空间:2 vs 1024。(这种区别甚至适用于选择更高维、不太简单的嵌入空间)。
为了说服自己嵌入形成了一个流形,我邀请您阅读Tenenbaum 论文的其余部分或Colah 文章。
注意:这只是对流形假设含义的说明,而不是对其发生原因的论证。
相关:词向量解释,word2vec论文