在论文“什么时候'最近的邻居'有意义? ”我们读到,
我们表明,在某些广泛的条件下(就数据和查询分布或工作量而言),随着维度的增加,到最近邻居的距离接近到最远邻居的距离。换句话说,到不同数据点的距离对比变得不存在。我们确定的发生这种情况的条件比其他工作假设的独立同分布 (IID) 维度假设要广泛得多。
我的问题是,我应该如何生成产生这种效果的数据集?
我已经创建了三个点,每个点都有 1000 个维度,每个维度的随机数范围为 0-255,但是点创建不同的距离并且不重现上面提到的内容。似乎改变尺寸(例如 10 或 100 或 1000 尺寸)和范围(例如 [0,1])不会改变任何东西。我仍然得到不同的距离,这对于聚类算法来说应该不是任何问题!
编辑:我尝试了更多样本,根据我的实验,点之间的距离不会收敛到任何数字,相反,点之间的最大和最小距离变得更加明显。这也与需要更多直觉以了解维度诅咒的第一篇文章中所写的内容以及许多其他声称相同的地方(例如https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problems . 如果有人可以用一段代码或真实数据集向我展示在实际场景中存在这种效果,我仍然会很感激。