在一些地方我读到了一个注释,如果你有很多参数并且您尝试在这些向量之间找到“相似度度量”,您可能会遇到“维度诅咒”。我相信这意味着大多数相似性分数都是相等的,并且不会给你任何有用的信息。换句话说,几乎所有伙伴向量都会有一些中等距离分数,这对于分类或聚类等没有用处。
你知道我在哪里可以更详细地了解这一点吗?
有没有受这种影响较小的指标?
在一些地方我读到了一个注释,如果你有很多参数并且您尝试在这些向量之间找到“相似度度量”,您可能会遇到“维度诅咒”。我相信这意味着大多数相似性分数都是相等的,并且不会给你任何有用的信息。换句话说,几乎所有伙伴向量都会有一些中等距离分数,这对于分类或聚类等没有用处。
你知道我在哪里可以更详细地了解这一点吗?
有没有受这种影响较小的指标?
关于高维数据中距离的一些经典观察:
最近对此进行了一些研究,其中涉及共享最近的邻居和中心:
这些很有趣,因为它们指出了一些关于维度诅咒的流行误解。从本质上讲,它们表明理论结果(假设数据是独立同分布的)对于具有多个分布的数据通常可能并不正确。诅咒会导致数值问题,并在单个分布中失去辨别力,同时它可以更容易区分两个分离良好的分布。
其中一些应该是相当明显的。假设您有对象每个维度中的 iid 和另一组对象每个维度的 iid。来自两个不同集合的对象之间的差异将始终大于单个集合内的距离,并且随着维度的增加,问题甚至会变得更容易。
我建议阅读 Houle 等人的这篇著作,主要是因为它表明,通过声称“这些数据是高维的,并且由于维度的诅咒无法对其进行分析”,您可能会让事情变得过于简单。尽管如此,这仍然是一条到处都在使用的线路。“由于维度灾难,我们的算法仅适用于低维数据。” “由于维度的诅咒,我们的索引最多只能用于 10 个维度。” 亚达亚达亚达。这些陈述中的许多显然只是表明这些作者没有理解在他们的数据和算法中高维发生了什么(或者需要一个借口)。Houle 等人。没有完全解决这个难题(但是?这是最近的事),但他们至少重新考虑了许多流行的说法。
毕竟,如果高维是一个大问题,为什么在文本挖掘中人们会愉快地使用 10000-100000 量级的维度,而在其他领域人们只放弃 10 维?!?
至于您问题的第二部分:余弦相似性似乎受维度影响较小。除此之外,只要您想区分不同的分布,控制数值精度并且不依赖手动选择的阈值(因为您可能需要为它们提供大量有效数字),经典-规范应该还是可以的。
然而,余弦也受到维度灾难的影响,如下所述:
还:
Robert J. Durrant, Ata Kabán:“最近邻”何时有意义:逆定理及其含义。J. 复杂性 25(4): 385-397 (2009)
Ata Kabán:关于某些数据缩减技术的距离集中意识。模式识别 44(2): 265-277 (2011)
Ata Kabán:高维数据中无意义距离的非参数检测。统计与计算 22(2): 375-385 (2012)