数据挖掘 - 集群内相似度度量 - 吾爱随笔录

集群内相似度度量

数据挖掘机器学习聚类相似

2022-02-28 07:54:28

我有一些属于组的观察结果，我想计算它们在不同组中的相似性，以便判断特定组中的哪些观察具有相似的特征。

哪些指标对做这些事情有用，在哪些条件下有用？

我知道有很多指标可以计算组中个体之间的相似性，但是没有阈值可以判断集群中的个体是否具有相似的模式。

2个回答

我想知道哪些指标对做这些事情有用

由于您正在对数据进行聚类，为什么不使用在聚类期间使用的相同指标来比较集群内的数据？我认为这应该在技术上给你你所需要的。

没有阈值来判断集群中的个体是否具有相似的模式

这几乎不取决于您的数据以及您想对相似性做什么。如果您只想检索最相似的点，您可以直接进行。

另一方面，如果您想使用此度量删除异常值，您当然也可以这样做，但您不妨首先使用处理异常值的算法。

在我看来，这似乎是一个假设检验问题，其中零假设可以表述为“两个数据集来自同一个总体分布函数”。如果我们可以充分肯定地反驳这一说法，那么我们可以假设它们实际上来自不同的人群。

您可以将您的功能分类为范围，然后应用定义为的卡方检验

$\chi^2 = \sum_i^n \frac{(O_i-E_i)^2}{E_i}$

在哪里 $i$ 是您拥有的每个功能的垃圾箱， $O_i$ 是您对 $i^{th}$ 斌， $E_i$ 是预期的观察次数。 $E_i = Np_i$ ，在哪里 $N$ 是您的观察次数和 $p_i$ 是获得 bin 的概率 $i$ .

例如，假设一个简单的硬币翻转实验，我们想确定硬币是否公平。基线分布应该是均匀的 50 头，50 尾。我们将进行卡方检验，看看我们的硬币是否公平。抛硬币时，我们观察到 30 个正面和 70 个反面。

$\chi^2 = \frac{(30 - 100*0.5)^2}{100*0.5} + \frac{(70-100*0.5)^2}{100*0.5} = 16$

这个例子有 1 个自由度。有两种可能的结果， $r = (n-1)$ .

现在我们可以看看我们可靠的卡方表。行通常用于自由度 $\nu$ ，在我们的示例中为 1。并且列是显着性水平，对于显着的结果，请查看 $p<0.05$ 对于一个非常显着的结果看下 $p<0.01$ . 我们可以看到我们计算的 $\chi^2$ 结果远高于a的值 $p<0.01$ 因此我们可以肯定地说，我们的第 2 组的分布与第 1 组的分布不同。它们在统计上是不同的。

或者，您可以获取每个变量的概率分布函数并获取两组之间的重叠区域。

其它你可能感兴趣的问题

上一篇使用集成模型进行多维回归？下一篇Isolation Forest Prediction Mechanics：它是否将值与每棵树（以及原始训练子集）进行比较？