高维数据的有效距离度量

机器算法验证 机器学习 聚类 相似之处 公制
2022-03-21 19:20:21

我昨天问了一个关于形成有效距离度量的问题(Link1)并得到了一些很好的答案;但是,我还有一些关于为高维数据形成适当距离度量的问题。

  1. 为什么三角不等式对于制定有效的距离度量如此重要?也许这个问题太宽泛了,但我脑子里还没有一个简单的例子。不确定你们是否可以想一个简单的场景来解释这一点?

  2. 正如我在上一篇文章 ( Link1 ) 中提到的,我认为余弦相似度与点积是一回事。我对吗?如果是这样,点积不是有效的距离度量,因为它不具有三角形不等式等属性。如果我们将点积测量的相似度转换为角度相似度,它会是一个合适的距离度量吗?

  3. 关于欧几里得距离,还有一篇文章(Link2)说它在高维度上不是一个好的度量。由于我的数据向量位于高维空间中,我想知道某些距离度量是否受到维数灾难的影响?

  4. 关于上面的 C 点,考虑到维度,分数距离度量会是更好的距离度量吗?链接3

非常感谢!一种

1个回答

对于高维数据,据报道共享最近邻距离适用于

Houle 等人,共享邻居距离能否战胜维度的诅咒?科学和统计数据库管理。计算机科学讲义 6187。482.doi:10.1007/978-3-642-13818-8_34

已知分数距离不是度量的。只是的一个度量,你会在 Minkowski 范数的度量属性的每个证明中发现这个限制。Lpp1