为什么维度的诅咒也被称为虚空现象?

机器算法验证 降维
2022-03-30 16:30:05

维度灾难是指大量相关特征往往会增加必须应用于数据集的处理的复杂性。这也称为空白空间现象。那么,有谁知道这两者之间的关系吗?

1个回答

我不认为维度的诅咒与相关性有任何关系,或者至少在我的理解中没有。诅咒是这样一种概念,即高维空间中一个点的局部邻域并不是真的那么局部 - 均匀“填充”具有固定体积的点的邻域所需的数据点数量(想想一个以单位立方体为中心的那时)随着维度呈指数增长。相反,如果你有固定数量的点,并增加它们所在空间的维度,你很快就会发现你的大部分空间都是空的。

例如,这出现在最近邻分类中。在这里,我们尝试通过搜索最接近它在小维度中,这是人们有具体经验并因此有直觉的,这些点都倾向于靠近,因为整个空间都相当密集地填充了训练示例。但是在大维度上,直觉失败了——最近的个点往往离得很远,中间有很多空白空间。kkkk

假设输入空间的维度是 100,并且我们有一个包含一万亿 (10^{12}) 个示例的庞大训练集,那么示例将仅覆盖输入空间的大约 10^{-18} 的一小部分。谁能向我解释为什么会这样?

这是对可能发生的情况的简短解释。假设我们所有的特征都是二进制的,这简化了数学但不是必需的。然后有种可能的特征组合。现在,即,所以特征组合“下落不明”的比例约为现在只需观察,所以2100log2(1012)4010122402100240=260log10(260)182601018