1999 年,拜尔等人。问, “最近邻”什么时候有意义?
自 1999 年以来,是否有更好的方法来分析和可视化距离平坦度对 NN 搜索的影响?
[给定] 数据集是否为 1-NN 问题提供有意义的答案?10-NN 问题?100-NN 问题?
各位专家今天将如何处理这个问题?
1月24日星期一编辑:
“距离变白”作为“随着尺寸增加的距离平坦度”的简称如何?
查看“距离白化”的一种简单方法是运行 2-NN,并绘制到最近邻居和次近邻居的距离。下图显示 了一系列 nclusters 和维度的dist 1和 dist 2 ,由 Monte Carlo 绘制。这个例子显示了缩放绝对差 |dist 2 - dist 1 | 的相当好的距离对比度。(相对差异 |dist 2 / dist 1 | → 1 作为维度 → ∞,因此变得无用。)
在给定的上下文中应该使用绝对误差还是相对误差当然取决于存在的“真实”噪声:困难。
建议:始终运行 2-NN;2 个邻居在靠近时很有用,在不靠近时很有用。