今天,“最近的邻居”什么时候有意义?

机器算法验证 机器学习 k-最近邻
2022-02-10 00:05:45

1999 年,拜尔等人。问, “最近邻”什么时候有意义?

自 1999 年以来,是否有更好的方法来分析和可视化距离平坦度对 NN 搜索的影响?

[给定] 数据集是否为 1-NN 问题提供有意义的答案?10-NN 问题?100-NN 问题?

各位专家今天将如何处理这个问题?


1月24日星期一编辑:

“距离变白”作为“随着尺寸增加的距离平坦度”的简称如何?

查看“距离白化”的一种简单方法是运行 2-NN,并绘制到最近邻居和次近邻居的距离。下图显示 了一系列 nclusters 和维度的dist 1和 dist 2 ,由 Monte Carlo 绘制。这个例子显示了缩放绝对差 |dist 2 - dist 1 | 的相当好的距离对比度。(相对差异 |dist 2 / dist 1 | → 1 作为维度 → ∞,因此变得无用。)

在给定的上下文中应该使用绝对误差还是相对误差当然取决于存在的“真实”噪声:困难。

建议:始终运行 2-NN;2 个邻居在靠近时很有用,在不靠近时很有用。

在此处输入图像描述

2个回答

我对这个问题没有完整的答案,但我可以就一些分析方面给出部分答案。警告:自从下面的第一篇论文以来,我一直在研究其他问题,所以很可能还有其他我不知道的好东西。

首先,我认为值得注意的是,尽管他们的论文标题为“什么时候‘最近的邻居’有意义”,但 Beyer 等人实际上回答了一个不同的问题,即 NN 什么时候没有意义。在对样本大小进行一些额外温和假设的情况下,我们在“最近邻”何时有意义:逆定理及其含义中证明了与他们的定理相反的情况。复杂性杂志,25(4),2009 年 8 月,第 385-397 页。并表明在某些情况下(理论上)不会出现距离集中(我们给出了示例,但本质上非噪声特征的数量需要随着维度的增加而增加,因此它们在实践中当然很少出现)。我们论文中引用的参考文献 1 和 7 给出了一些在实践中可以减轻距离集中度的示例。

我的主管 Ata Kaban 的一篇论文探讨了这些距离集中问题是否仍然存在,尽管在 On the Distance Concentration Awareness of certain Data Reduction Techniques 中应用了降维技术。模式识别。卷。44,第 2 期,2011 年 2 月,第 265-277 页。. 里面也有很好的讨论。

Radovanovic 等人最近发表的一篇论文Hubs in Space: Popular Nearest Neighbors in High-Dimensional Data。JMLR,11(九月),2010 年 9 月,第 2487-2531 页。讨论了“中心”的问题,即当一小部分点属于许多标记观测值另见网络上的第一作者的博士论文。k

您可能会对Goldberger 等人的邻域成分分析感兴趣。

在这里,学习线性变换以通过随机最近邻域选择最大化预期的正确分类点。

作为副作用,邻居的(预期)数量是从数据中确定的。