如果我有一个 50 维的超立方体。我定义它的边界或者在哪里是超立方体的维数。然后计算超立方体边界上点的比例将是. 这是什么意思?这是否意味着其余的空间是空的?如果的点在边界,那么立方体内的点一定不能均匀分布?
当我们说超立方体中的大多数点都在边界上时,这意味着什么?
说起 '超立方体中的点' 有点误导,因为超立方体包含无限多的点。让我们来谈谈音量。
超立方体的体积是其边长的乘积。对于 50 维的单位超立方体,我们得到
现在让我们排除超立方体的边界,看看“内部”(我把它放在引号中,因为数学术语内部有非常不同的含义)。我们只保留积分满足
这表明一个 50 维超立方体的体积集中在它的“边界”上。
跟进: ignatius提出了一个有趣的问题,即这与概率有何关系。这是一个例子。
假设您提出了一个(机器学习)模型,该模型根据 50 个输入参数预测房价。所有 50 个输入参数独立且均匀分布在和.
让我们说,如果没有一个输入参数是极端的,那么您的模型效果很好:只要每个输入参数都保持在和,您的模型几乎完美地预测了房价。但是如果一个或多个输入参数是极端的(小于或大于),你的模型的预测是绝对可怕的。
任何给定的输入参数都是极端的,概率仅为. 很明显,这是一个很好的模型,对吧?不!至少有一个的概率参数是极端的 所以在在这些情况下,您的模型的预测很糟糕。
经验法则: 在高维中,极端观察是规则而不是例外。
即使在较低的维度上,您也可以清楚地看到图案。
第一个维度。取一条长度为10的线,边界为1。边界的长度为2,内部为8,比例为1:4。
第二维。取一个边为 10 的正方形,再次取边界 1。边界的面积为36,内部为64,比例为9:16。
第三维度。相同的长度和边界。边界的体积是 488,内部是 512,61:64 - 边界已经占据了几乎和内部一样多的空间。
第 4 维,现在边界是 5904,内部是 4096——边界现在更大了。
即使对于越来越小的边界长度,随着尺寸的增加,边界体积总是会超过内部。
“理解”它的最佳方法(尽管恕我直言,这对人类来说是不可能的)是比较 n 维球和 n 维立方体的体积。随着 n(维数)的增长,球的所有体积“泄漏”并集中在立方体的角落。这是在编码理论及其应用中要记住的有用的一般原则。
最好的教科书解释是在 Richard W. Hamming 的著作“编码和信息理论”(3.6 Geometric Approach, p 44)中。
如果您记住 n 维单位立方体的体积始终为 1^n,那么Wikipedia 中的简短文章将为您提供相同的简短摘要。
我希望它会有所帮助。