为什么现实世界的高维数据通常具有低得多的固有维数?

机器算法验证 自习 主成分分析
2022-03-24 16:31:02

在前一年关于数据分析的考试中,有一个问题让我感到困惑。

这是问题:

解释为什么在现实世界的高维数据中,数据点的固有维数会小于坐标数是很自然的。如何在 PCA 中找到较少数量的相关新坐标轴?

我对真实世界的高维数据小于坐标数感到困惑。如果有人能指出我正确的方向,我将不胜感激。

4个回答

并不是数据的维度(更准确地说,是工作中的统计过程)小于坐标空间,而是通常没有足够的可用数据来获得各个方向的统计显着结果。这是著名的维度诅咒的体现。PCA 试图确定您最有可能获得可靠和稳定结果的方向 - 它通过找到数据最分散的方向来做到这一点。

当然,有些随机过程确实只发生在特征空间的低维子空间中,但总的来说,最好不要假设这是没有证据的。尽管如此,在任何情况下,你都必须尽你所能利用你所拥有的数据,而你所拥有的数据只能支持有限数量的推论。

答案比较简单。通常对于现实世界的问题,您不知道要使用哪些功能来解决问题。很多时候,你最终会抛出太多特征,让算法找出哪些特征是有区别的。

我们以 MNIST 数字分类为例。您将获得以数字为中心的 28x28 黑白图像。您可以选择:基于单个像素值构建分类器(简单但意味着更多维度)或提出更智能的特征(更难但维度更少)。如果您使用单个像素值,您就会知道不需要那些 784 个维度来编码 10 位数字之间的差异。这些信息被埋在里面的某个地方。

“数据点的固有维度将小于坐标数”的含义是:如果您有二维数据,则需要二维坐标系(例如 x,y)才能显示它们. 如果你的数据有 n 维,你需要一个 n 维坐标系,在 n=3 之后,我们不可能在几何上可视化它(至少对我来说)。所以如果你有高维数据,就很难展示出来。但是,有一个窍门。你可以说:好的,我可能需要很多维度来显示通常的坐标系中的数据,但是有没有办法将数据转换为其他形式,所以我需要更少的轴来显示它,或者类似的替代坐标系,我可以用更少的轴显示我的数据?答案是肯定的,而 PCA 就是你的做法。你说,好吧,让我找出我的数据变化最大的方向,也就是方差最大的方向,把这个方向作为我的新坐标系的第一轴。然后你说,好的,现在我有一个方向可以解释我的数据中的一些(大部分)方差,但是数据的方差在哪个方向上是第二高的,你找到它,它是你坐标的第二个方向系统。然后你重复几次,并想出几个轴来解释你的数据的大部分方差。您的数据中的其余差异非常小并且不那么相关,因为您已经拥有数据中的大部分更改。所以现在,在这个新系统中,您几乎拥有原始数据的所有方差,但是您的坐标轴更少,即 您的数据在这个新坐标系统中的表现几乎与以前一样好,但是在新坐标系统中它的坐标轴要少得多。这就是您的数据固有的维度(在新坐标系统中)比坐标数(在旧坐标系统中)少的意思。

低维新坐标系中的这种表示是允许的,因为您的数据实际上在前一个 corrd 中有一些依赖关系。系统基础,即您的数据可以在另一个坐标中更有效地表示。具有其他基函数的系统。PCA 是一种找到定义新坐标系的基函数的特殊方法。

在现实世界中,一切都受上帝的控制。这就是为什么一切都依赖于上帝。所以,一切都在一个维度,就是神的旨意的维度。这是唯一正确的答案,但我怀疑你的教授会接受它。所以,这里有一个更简单的。

在现实世界中,我们可能不会收集一些随机数据。我们通常收集数据试图解决一些问题。当我们这样做时,我们很可能会寻找与感兴趣的现象相关的数据。由于这种关系,很可能所有不同的数据点都从不同的角度测量相同的事物,形象地说。件事可能是我们首先感兴趣的。所以,如果我们能以某种方式提取现象的本质,我们最终可能会得到比所有这些变量更少的维度。