许多事物在高维空间中表现不同

数据挖掘 机器学习 主成分分析 降维
2021-10-08 13:07:29

事实证明,许多事物在高维空间中的行为非常不同。以下段落摘自一本书。我需要额外的帮助才能理解。书上说,

如果您在单位正方形中选择一个随机点(a 1×1 方),它只有大约一个 0.4% 被定位的机会小于 0.001从边界(换句话说,随机点在任何维度上都不太可能是极端的)。但是在一个10,000维单位超立方体(a1×1×1×1×1×1×1一万个1s的立方),这个概率大于99.99999%. 高维超立方体中的大多数点都非常靠近边界。

问)作者想从上面的段落中传达什么?

如果你在一个单位正方形中随机选择两个点,这两个点之间的距离平均约为0.52. 如果您在一个单位 3D 立方体中选取两个点,则平均距离将大致为0.66. 现在如果你在一个随机选取的两个点1,000,000维超立方体,平均距离约为408?

这怎么可能?

1个回答

沿着单位立方体的每个方向,我们有2边界。小于0.01从一个边界d-维单位立方体,它不在边长立方体内12×0.001与原始立方体共享相同的质心。

对应的音量是(12×0.01)d在哪里d是对应的维度。

(1(12×0.001)2)×100%0.3996%

(1(12×0.001)10,000)×100%99.999999798%

当我们第一次计算答案时2维度上,我们可能会不小心得出结论,大多数点都不靠近边界。这个故事的寓意是要小心不要将我们所相信的东西在没有证据的情况下推广到更高的维度。

您的第二个问题也称为Hypercube 选线,其计算非常重要。我们知道

13dΔ(d)d18(1+2135d)