我有一些属于组的观察结果,我想计算它们在不同组中的相似性,以便判断特定组中的哪些观察具有相似的特征。
哪些指标对做这些事情有用,在哪些条件下有用?
我知道有很多指标可以计算组中个体之间的相似性,但是没有阈值可以判断集群中的个体是否具有相似的模式。
我有一些属于组的观察结果,我想计算它们在不同组中的相似性,以便判断特定组中的哪些观察具有相似的特征。
哪些指标对做这些事情有用,在哪些条件下有用?
我知道有很多指标可以计算组中个体之间的相似性,但是没有阈值可以判断集群中的个体是否具有相似的模式。
我想知道哪些指标对做这些事情有用
由于您正在对数据进行聚类,为什么不使用在聚类期间使用的相同指标来比较集群内的数据?我认为这应该在技术上给你你所需要的。
没有阈值来判断集群中的个体是否具有相似的模式
这几乎不取决于您的数据以及您想对相似性做什么。如果您只想检索最相似的点,您可以直接进行。
另一方面,如果您想使用此度量删除异常值,您当然也可以这样做,但您不妨首先使用处理异常值的算法。
在我看来,这似乎是一个假设检验问题,其中零假设可以表述为“两个数据集来自同一个总体分布函数”。如果我们可以充分肯定地反驳这一说法,那么我们可以假设它们实际上来自不同的人群。
您可以将您的功能分类为范围,然后应用定义为的卡方检验
在哪里是您拥有的每个功能的垃圾箱,是您对斌,是预期的观察次数。, 在哪里是您的观察次数和是获得 bin 的概率.
例如,假设一个简单的硬币翻转实验,我们想确定硬币是否公平。基线分布应该是均匀的 50 头,50 尾。我们将进行卡方检验,看看我们的硬币是否公平。抛硬币时,我们观察到 30 个正面和 70 个反面。
这个例子有 1 个自由度。有两种可能的结果,.
现在我们可以看看我们可靠的卡方表。行通常用于自由度,在我们的示例中为 1。并且列是显着性水平,对于显着的结果,请查看对于一个非常显着的结果看下. 我们可以看到我们计算的结果远高于a的值因此我们可以肯定地说,我们的第 2 组的分布与第 1 组的分布不同。它们在统计上是不同的。
或者,您可以获取每个变量的概率分布函数并获取两组之间的重叠区域。