大号1L1用于聚类的或大号.5L.5

机器算法验证 聚类 距离函数 经验法则
2022-02-10 14:52:18

是否有人使用指标进行聚类,而不是 Aggarwal 等人, 关于高维空间中距离度量的令人惊讶的行为 说(在 2001 年)L1L.5L2

L1对于高维数据挖掘应用程序,始终比欧几里德距离度量 L2

并声称可以更好。L.5L.1

使用的原因可能是理论上的或实验性的,例如对异常值/Kabán 论文的敏感性,或者在真实或合成数据上运行的程序(请重现)。一个例子或一张图片将有助于我的外行的直觉。L1L.5

这个问题是 Bob Durrant 对When-is-nearest-neighbor-meaningful-today的回答的后续问题 正如他所说,的选择将取决于数据和应用程序。尽管如此,关于真实经验的报告将是有用的。p


6 月 7 日星期二添加的注释:

我偶然发现了“基于 L1 范数和相关方法的统计数据分析”,Dodge ed., 2002, 454p, isbn 3764369205 — 几十篇会议论文。

任何人都可以分析 iid 指数特征的距离集中度吗?指数的一个原因是 ; 另一个(非专家)是它的最大熵分布 0; 第三是一些真实的数据集,特别是 SIFT,看起来大致呈指数级。|expexp|exp

3个回答

这里的关键是理解论文引用的“维度诅咒”。来自维基百科:当维度数量非常大时,

几乎所有的高维空间都离中心“很远”,或者换句话说,高维单位空间可以说几乎完全由超立方体的“角”组成,几乎没有“中间”

结果,考虑哪些点靠近哪些其他点开始变得棘手,因为它们或多或少都相距甚远。这是您链接到的第一篇论文中的问题。

高 p 的问题在于它强调较大的值——五平方和四平方相距九个单位,但一平方和二平方相距仅三个单位。所以更大的尺寸(角落里的东西)支配着一切,你失去了对比。所以这种大距离的膨胀是你想要避免的。对于小数 p,重点是较小维度的差异——实际上具有中间值的维度——这会给你更多的对比。

有一篇论文使用了 p 介于 1 和 5 之间的 Lp 度量,您不妨看看:

Amorim, RC 和 Mirkin, B.,Minkowski 度量,K 均值聚类中的特征加权和异常聚类初始化,模式识别,卷。45(3),第 1061-1075 页,2012

下载, https ://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering/file/d912f508115a040b45.pdf

我不知道你的是否是推理的问题。如果问题是在某些约束下从推断一个向量(应该定义一个封闭的凸集),当先验猜测说给定时,则通过最小化的距离来推断向量约束集(如果没有给出先前的,那么它只是通过最小化 -norm)。在本文http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385中,上述原则被证明是在某些情况下正确的做法。Rnu2uu2