当我们说超立方体中的大多数点都在边界上时,这意味着什么?

数据挖掘 机器学习 数学
2021-09-30 01:26:38

如果我有一个 50 维的超立方体。我定义它的边界0<xj<0.05或者0.95<xj<1在哪里xj是超立方体的维数。然后计算超立方体边界上点的比例将是0.995. 这是什么意思?这是否意味着其余的空间是空的?如果99%的点在边界,那么立方体内的点一定不能均匀分布?

3个回答

说起 '99%超立方体中的点' 有点误导,因为超立方体包含无限多的点。让我们来谈谈音量。

超立方体的体积是其边长的乘积。对于 50 维的单位超立方体,我们得到

Total volume=1×1××150 times=150=1.

现在让我们排除超立方体的边界,看看“内部”(我把它放在引号中,因为数学术语内部有非常不同的含义)。我们只保留积分x=(x1,x2,,x50)满足

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
这个“内部”的体积是多少?那么,“内部”又是一个超立方体,每边的长度是0.9(=0.950.05......它有助于在二维和三个维度上想象这一点)。所以音量是
Interior volume=0.9×0.9××0.950 times=0.9500.005.
得出结论“边界”的体积(定义为没有“内部”的单位超立方体)是10.9500.995.

这表明99.5%一个 50 维超立方体的体积集中在它的“边界”上。


跟进: ignatius提出了一个有趣的问题,即这与概率有何关系。这是一个例子。

假设您提出了一个(机器学习)模型,该模型根据 50 个输入参数预测房价。所有 50 个输入参数独立均匀分布01.

让我们说,如果没有一个输入参数是极端的,那么您的模型效果很好:只要每个输入参数都保持在0.050.95,您的模型几乎完美地预测了房价。但是如果一个或多个输入参数是极端的(小于0.05或大于0.95),你的模型的预测是绝对可怕的。

任何给定的输入参数都是极端的,概率仅为10%. 很明显,这是一个很好的模型,对吧?不!至少有一个的概率50参数是极端10.9500.995. 所以在99.5%在这些情况下,您的模型的预测很糟糕。

经验法则: 在高维中,极端观察是规则而不是例外。

即使在较低的维度上,您也可以清楚地看到图案。

第一个维度。取一条长度为10的线,边界为1。边界的长度为2,内部为8,比例为1:4。

第二维。取一个边为 10 的正方形,再次取边界 1。边界的面积为36,内部为64,比例为9:16。

第三维度。相同的长度和边界。边界的体积是 488,内部是 512,61:64 - 边界已经占据了几乎和内部一样多的空间。

第 4 维,现在边界是 5904,内部是 4096——边界现在更大了。

即使对于越来越小的边界长度,随着尺寸的增加,边界体积总是会超过内部。

“理解”它的最佳方法(尽管恕我直言,这对人类来说是不可能的)是比较 n 维球和 n 维立方体的体积。随着 n(维数)的增长,球的所有体积“泄漏”并集中在立方体的角落。这是在编码理论及其应用中要记住的有用的一般原则。

最好的教科书解释是在 Richard W. Hamming 的著作“编码和信息理论”(3.6 Geometric Approach, p 44)中。

如果您记住 n 维单位立方体的体积始终为 1^n,那么Wikipedia 中简短文章将为您提供相同的简短摘要。

我希望它会有所帮助。