为什么我们使用高斯核作为相似度度量?

数据挖掘 机器学习 数据挖掘 聚类 公制
2021-09-30 08:48:15

在基于图的聚类中,为什么更喜欢使用高斯核而不是两点之间的距离作为相似度度量?

3个回答

让我们准确一点。“距离”在数据科学中有很多含义,我想你说的是欧几里得距离

高斯核是欧几里得距离的非线性函数

在此处输入图像描述

  • 核函数距离减小,范围在 0 和 1 之间。在欧式距离中,值距离增加。因此,核函数是加权观察的更有用的度量。

  • 它介于零和一之间的事实是一个很好的属性,而欧几里得距离中的绝对距离(它可以是任何东西)会导致建模的不稳定和困难。

  • 欧几里得距离(没有负号)不是相似度度量,而是距离函数。高斯核是一种相似性度量。

  • 您可以将高斯核视为欧几里得距离的归一化函数。

从欧几里得距离,您可以从核函数(多项式、指数、Matern、自定义...)中推导出许多相似性度量,其中没有一个比高斯核更好或更差。这完全取决于您的数据和您的期望。

给定一个核函数,您还可以选择任何适合您感觉的距离定义:加权欧几里得距离, L1 规范, L 规范,推土机的距离...

现在,具有欧几里得距离的高斯核非常常见,因为它非常直观,并提供了有用的属性,例如平滑度。

在欧几里得空间中,轴由i,j,k向量,三维空间,距离可以通过连接两点并找到连接的长度来获得。只要每个方向的基础是独立的,就会使用这个空间。换句话说,每当需要找到真实距离时,如果特征或变量、轴确实是独立的,则可以使用欧几里得距离。相反,只要变量相关,就不能使用欧几里得距离,因为轴不再是独立的。在这种并不罕见的情况下,可以使用Mahalanobis 。它的形式类似于高斯距离。