什么是非欧几里得数据?
以下是一些子问题
这种类型的数据是从哪里产生的?我在几何深度学习和图神经网络的背景下遇到了这个术语。
显然,图和流形是非欧几里得数据。为什么会这样呢?
非欧几里得数据和欧几里得数据有什么区别?
非欧几里得数据的数据集会是什么样子?
什么是非欧几里得数据?
以下是一些子问题
这种类型的数据是从哪里产生的?我在几何深度学习和图神经网络的背景下遇到了这个术语。
显然,图和流形是非欧几里得数据。为什么会这样呢?
非欧几里得数据和欧几里得数据有什么区别?
非欧几里得数据的数据集会是什么样子?
我认为这个问题是由论文《几何深度学习:超越欧几里得数据》 (2017)提出的。如果我们看一下它的摘要:
许多科学领域研究具有非欧几里得空间的基础结构的数据。一些例子包括计算社会科学中的社会网络、通信中的传感器网络、大脑成像中的功能网络、遗传学中的调节网络以及计算机图形学中的网格表面。在许多应用中,此类几何数据庞大而复杂(在社交网络的情况下,规模达数十亿),并且是机器学习技术的自然目标。特别是,我们希望使用深度神经网络,它最近已被证明是解决计算机视觉、自然语言处理和音频分析等广泛问题的强大工具。然而,这些工具在具有底层欧几里得或类似网格结构的数据上,以及在这些结构的不变性被构建到用于对其建模的网络中的情况下,这些数据最为成功。
我们看到作者使用术语“非欧几里得数据”来指代其底层结构为非欧几里得的数据。
由于欧几里得空间的原型定义为Rn
然而,有些数据并没有整齐地映射到Rn
图神经网络等方法寻求调整现有机器学习技术以直接处理非欧几里得结构化数据作为输入,以便在将数据转换为现有技术所需的欧几里得输入时不会丢失这些(可能有用的)信息。
非欧几何通常可以归结为短语
两点之间的最短路径不一定是直线。
或者,以一种非常适合机器学习的方式,
如果使用欧几里得距离作为度量(也就是三角不等式不成立),那么彼此相似的事物不一定很接近。
您提到图和流形是非欧几里得的,但实际上,大多数正在研究的问题都没有欧几里得数据。以下面的图片为例:
显然,其中 2 个图像比第 3 个图像更相似,但如果我们只看像素,像素值之间的欧几里得距离并不代表这种相似性。
如果有一个功能,F(图片)
让我们看一个更具体的例子,我在 MSPaint 中画的一些点。左边是我们感兴趣的一些空间,其中点有 2 个类别(红色或蓝色)。即使有些点彼此接近,它们也可能具有不同的颜色/类别。理想情况下,我们可以有一个函数将这些点转换为一些空间,我们可以在其中画一条线来分隔这两个类。一般来说,会有很多线,或者尺寸大于 3 的超平面,但目标是转换数据,使其“线性可分”。
总而言之,非欧几里得数据无处不在。
很难说,因为欧几里得空间是根据某种度量来定义的,所以如果没有更清楚地说明数据/问题的性质,这个短语本身可能清楚也可能不清楚。
一个指标 d:一个×一个→R
欧几里得度量是也服从毕达哥拉斯定理的度量,或者至少:某个点之间的距离(X,是的)∈R2
基础数据并非“自然来自”的任何图形/数据Rn,或不允许自然嵌入的图Rn可能不是欧几里得,因为Rn与任何欧几里得空间同构。
据我了解,与在欧几里得空间中形成的数据相比,非欧几里得空间的概念并没有带来特征之间的顺序性或层次性。
对于分类等判别性任务,这两种技术之间的差异并不显着。但是,对于生成建模,非欧几里得技术有助于定义给定数据分布的潜在流形空间。即使使用n潜在空间的自由度。这对于欧几里得技术是不可能的。如果没有欧几里得空间的最小变化,就无法从流形或流形外部完全遍历/生成样本。更准确地说,它可以,但它只会将其呈现为嘈杂的数据。