ESL,页。42说:
因此,大多数数据点比任何其他数据点更接近样本空间的边界。这提出了一个问题的原因是在训练样本的边缘附近进行预测要困难得多。必须从相邻的样本点进行推断,而不是在它们之间进行插值。
我知道外推比内插更难。而且我知道,如果我们选择一个点来预测并且它恰好靠近样本空间的边缘,我们更有可能不得不进行外推。
但训练数据集的很大一部分也靠近边缘。而且附近的训练点越多,我们必须进行插值而不是外推的机会就越大。许多训练点靠近边缘这一事实是否减少甚至消除了我们要预测的许多点靠近边缘的问题?
ESL,页。42说:
因此,大多数数据点比任何其他数据点更接近样本空间的边界。这提出了一个问题的原因是在训练样本的边缘附近进行预测要困难得多。必须从相邻的样本点进行推断,而不是在它们之间进行插值。
我知道外推比内插更难。而且我知道,如果我们选择一个点来预测并且它恰好靠近样本空间的边缘,我们更有可能不得不进行外推。
但训练数据集的很大一部分也靠近边缘。而且附近的训练点越多,我们必须进行插值而不是外推的机会就越大。许多训练点靠近边缘这一事实是否减少甚至消除了我们要预测的许多点靠近边缘的问题?
问题是“边缘”不仅仅是维空间中的一个地方。“边缘”是你音量的很大一部分,“边缘”的音量增长非常快。因此,即使越来越多的训练数据点位于“边缘”附近,训练数据的密度的增加而迅速下降。
作为一个小可视化,考虑一个边长为 2 的二维正方形,并在其中内接一个半径为 1 的圆。让我们称圆外的正方形区域为“边缘”。“边缘”的面积为,它由四个不相交的部分组成。
现在考虑三个维度的相同情况。然后在四个。等等。你可以证明,如果我们充分,“边缘”的体积将占据我们想要的维立方体的体积。 , “边缘”不再是不相交的,但是您的训练数据会丢失在其中。
或者,维单位立方体中随机均匀分布个点,以增加,并检查平均成对距离。你会看到这个距离随着迅速增加。为了使这个平均距离保持不变,您需要多快将与确实很快。
底线:“附近的训练点越多”是您的论点误入歧途的地方。在高维中,附近的点很少。
而且附近的训练点越多
max 的回答触及了要点,但我只是想指出,上面的引用是你的错误假设,给出更多关于点如何最终处于边缘的直觉,并指出这如何导致稀疏问题。错误假设是边缘很小。它不是。它在高维度上是巨大的。随着维数的增加,最接近单位球表面的 0.1% 半径内的体积比例以指数方式达到 100%。
一种代数/概率的查看方式是,要处于中间位置,您需要同时为所有维度设置低值。要处于边缘,您只需要对一个维度具有较高的价值。随着维度数量的增加,最后一个维度具有高值的机会达到 100%。如果每个维度只能有 0 或 1 的值,那么在 n 维度中仍然会有可能的值。如果我们允许连续值,您将所有这些都视为区域。
这会产生稀疏性问题。您的训练数据集中不存在大部分空间区域。如果您随机选择点,则几乎没有点会靠近您的训练数据集。但是其中一些区域将在您的测试数据集中。