欧几里得与余弦相似度

数据挖掘 机器学习 数据挖掘 聚类 文本挖掘 大数据
2022-02-25 19:06:43

我有一个文本数据集,我使用 tfidf 技术对其进行矢量化,现在为了进行聚类分析,我正在测量这些矢量表示之间的距离。我发现一种常见的技术是使用余弦相似度来测量距离,当我问为什么不使用欧几里得距离时,常见的答案是当向量具有不同大小时余弦相似度效果更好。

由于我的文本矢量化表示是标准化的,我想知道使用余弦相似度而不是欧几里得距离来对我的数据进行聚类的优势是什么?

1个回答

在 L2 归一化数据上,证明它们是等价的是一个简单而好的练习。

因此,您应该尝试自己解决数学问题。

提示:使用平方欧几里得。

请注意,由于各种技术原因,tfidf 通常没有标准化数据,例如,在文本搜索中使用倒排索引时。此外,余弦在非常稀疏的数据上速度更快。