集群内相似度度量

数据挖掘 机器学习 聚类 相似
2022-02-28 07:54:28

我有一些属于组的观察结果,我想计算它们在不同组中的相似性,以便判断特定组中的哪些观察具有相似的特征。

哪些指标对做这些事情有用,在哪些条件下有用?

我知道有很多指标可以计算组中个体之间的相似性,但是没有阈值可以判断集群中的个体是否具有相似的模式。

2个回答

我想知道哪些指标对做这些事情有用

由于您正在对数据进行聚类,为什么不使用在聚类期间使用的相同指标来比较集群内的数据?我认为这应该在技术上给你你所需要的。

没有阈值来判断集群中的个体是否具有相似的模式

这几乎不取决于您的数据以及您想对相似性做什么。如果您只想检索最相似的点,您可以直接进行。

另一方面,如果您想使用此度量删除异常值,您当然也可以这样做,但您不妨首先使用处理异常值的算法。

在我看来,这似乎是一个假设检验问题,其中零假设可以表述为“两个数据集来自同一个总体分布函数”。如果我们可以充分肯定地反驳这一说法,那么我们可以假设它们实际上来自不同的人群。

您可以将您的功能分类为范围,然后应用定义为的卡方检验

χ2=in(OiEi)2Ei

在哪里i是您拥有的每个功能的垃圾箱,Oi是您对ith斌,Ei是预期的观察次数。Ei=Npi, 在哪里N是您的观察次数和pi是获得 bin 的概率i.

例如,假设一个简单的硬币翻转实验,我们想确定硬币是否公平。基线分布应该是均匀的 50 头,50 尾。我们将进行卡方检验,看看我们的硬币是否公平。抛硬币时,我们观察到 30 个正面和 70 个反面。

χ2=(301000.5)21000.5+(701000.5)21000.5=16

这个例子有 1 个自由度。有两种可能的结果,r=(n1).

现在我们可以看看我们可靠的卡方表。行通常用于自由度ν,在我们的示例中为 1。并且列是显着性水平,对于显着的结果,请查看p<0.05对于一个非常显着的结果看下p<0.01. 我们可以看到我们计算的χ2结果远高于a的值p<0.01因此我们可以肯定地说,我们的第 2 组的分布与第 1 组的分布不同。它们在统计上是不同的。


或者,您可以获取每个变量的概率分布函数并获取两组之间的重叠区域。