我最近读了一些博客文章。有人提到您无法将高维空间想象为 2d 或 3d,因为高维空间中任何 2 点之间的距离往往是相似的,这意味着“密集”。然而,在t-SNE 论文中,它说高维空间往往是稀疏的,因此您必须采用特殊的降维技术以有意义的方式在 2d 或 3d 空间中进行可视化。那么如何调和这两种不同的观点呢?
高维空间是密集的还是稀疏的?
数据挖掘
机器学习
神经网络
2021-10-15 09:03:24
2个回答
高维空间中的数据往往比低维空间中的数据稀疏。有多种方法可以量化这一点,但一种可能有助于您的直觉的思维方式是首先想象点在三维盒子中随机均匀分布。现在把盒子压平成一个正方形,把两个相对的边推在一起,这样所有的点都在一个平面上。您是否看到一个点与其最近邻点之间的平均距离现在变小了?现在将正方形展平成一条线段。您是否看到一个点与其邻居之间的平均距离现在更小了?
这和说高维空间中任意 2 个点之间的平均距离趋于相似是没有冲突的。后一种说法并不意味着密度。实数线是密集的(它没有间隙),但点之间的距离范围从 0 到无穷大。关键是空间的维度越高,点越有可能位于空间边缘而不是中心附近。
再次考虑我们实际可以看到的尺寸。考虑一个带有 的圆radius=1,内接在一个边为 的正方形中length=2。圈子占据占广场面积的 78.5%。radius=1现在考虑一个边为 的立方体内接的球体length=2。球体占据立方体体积的 52.4%。正如您在此示例中看到的那样,随机放置的点靠近中心(在这种情况下靠近中心意味着在圆或球体内)的几率随着维度的增加而降低。点更有可能在角落里。这就是为什么在高维中点之间的距离往往相似——因为随机放置的点往往靠近区域的边缘。
我想详细说明一下高维空间中的数据更稀疏的事实。
通常,我们会想到欧几里得空间。这意味着如果我们有积分 我们说他们的距离是
所以我们取分量平方差之和的平方根。
现在考虑一个单位超立方体中的两个点 (因此 )。这个超立方体中两点的最大距离是它们在对角线上的时候。因此距离为,意思是维度越高,单位超立方体中的点可以越远。
也可以看看:
- n维超立方体中k个点的最大距离是多少?
- Martin Thoma:维度的诅咒
其它你可能感兴趣的问题