是否有人使用或指标进行聚类,而不是?
Aggarwal 等人,
关于高维空间中距离度量的令人惊讶的行为
说(在 2001 年)
对于高维数据挖掘应用程序,始终比欧几里德距离度量
并声称或可以更好。
使用或的原因可能是理论上的或实验性的,例如对异常值/Kabán 论文的敏感性,或者在真实或合成数据上运行的程序(请重现)。一个例子或一张图片将有助于我的外行的直觉。
这个问题是 Bob Durrant 对When-is-nearest-neighbor-meaningful-today的回答的后续问题 。正如他所说,的选择将取决于数据和应用程序。尽管如此,关于真实经验的报告将是有用的。
6 月 7 日星期二添加的注释:
我偶然发现了“基于 L1 范数和相关方法的统计数据分析”,Dodge ed., 2002, 454p, isbn 3764369205 — 几十篇会议论文。
任何人都可以分析 iid 指数特征的距离集中度吗?指数的一个原因是 ; 另一个(非专家)是它的最大熵分布 0; 第三是一些真实的数据集,特别是 SIFT,看起来大致呈指数级。