二进制数据的相似系数:为什么选择 Jaccard 而不是 Russell 和 Rao?

机器算法验证 二进制数据 相似之处 关联度量
2022-02-04 12:32:20

统计科学百科全书中,我了解到给定p二分(二进制:1=存在;0=不存在)属性(变量),我们可以为样本的任何两个对象ij形成列联表:

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

我们可以从这些值计算任何一对对象之间的相似系数,特别是 Jaccard 系数

aa+b+c
以及 Russell 和 Rao 系数
aa+b+c+d=ap.

计算时,这些系数会给出不同的值,但我找不到任何资源来解释为什么我应该选择一个而不是另一个。是否只是因为对于某些数据集,两个属性同时缺失(d) 不传达任何信息?

2个回答

存在许多这样的系数(大多数在这里表示)。试着思考一下公式差异的后果是什么,尤其是当你计算一个系数矩阵时。

例如,想象一下对象 1 和 2 与对象 3 和 4 相似。但是 1 和 2 具有列表中的许多属性,而 3 和 4 仅具有很少的属性。在这种情况下,Russell-Rao(共同属性在考虑的属性总数中的比例)对于 1-2 对较高,对于 3-4 对较低。但是对于 1-2 和 3-4 对,Jaccard(共同属性与两个对象具有的属性的组合数量的比例= 如果任一对象具有属性则它们都具有属性的概率)将很高。

这种对“属性饱和度”基本级别的调整使得Jaccard比Russell-Rao更受欢迎和更有用,例如在聚类分析或多维缩放中。从某种意义上说,您可以通过选择Kulczynski-2度量来进一步细化上述调整,这是一个算术平均概率,即如果一个对象具有属性,则另一个对象也具有该属性:

(aa+b+aa+c)/2
这里两个对象的属性基(或字段)不是池化的,就像在 Jaccard 中那样,而是两个对象中的每一个都是自己的。因此,如果对象在它们所具有的属性数量上存在很大差异,并且“较贫穷”对象与“较富裕”对象共享的所有属性,Kulczynski 将是高的,而 Jaccard 将是中等的。

或者您可能更喜欢计算几何平均概率,即如果一个对象具有属性,则另一个对象也具有该属性,从而产生Ochiai度量:

aa+baa+c
因为当只有一项增长时,乘积的增长比总和的增长要弱,所以只有当两个比例(概率)都很高时,落合才会真正高,这意味着要被落合认为相似,对象必须共享它们的大部分属性。简而言之,落合抑制相似性,如果bc是不平等的。Ochiai 实际上是余弦相似度度量(Russell-Rao 是点积相似度)。


附言

仅仅是因为对于某些数据集,两个属性 (d) 同时缺失并没有传达任何信息吗?

说到相似性度量,不应将名义上的二分属性(例如女性、男性)与二元属性(存在与不存在)混为一谈。二元属性不是对称的(一般来说),——如果你和我有一个共同的特征,那就是我们称我们相似的基础;如果您和我都错过了该特征,则可能会或可能不会将其视为相似性的证据,具体取决于研究的背景。因此不同的处理方式d是可能的。

另请注意,如果您希望基于 1+名义属性(二分或多分)计算对象之间的相似性,请将每个此类变量重新编码为一组虚拟二进制变量。然后推荐的计算相似性度量将是Dice当计算 1+ 组虚拟变量时,它等效于 Ochiai 和 Kulczynski-2)

当将分割与黄金标准进行比较时,Tanimoto 系数相对于传统精度(即 Russell-Rao)的有用性在图像分析中是显而易见的。考虑这两个图像:

在此处输入图像描述

在这些二元“蒙版”图像中的每一个中,我们有两个大小相同但位置略有不同的对象,我们希望通过评估它们的重叠来评估这些对象在形状和位置上的相同程度。通常一个(例如紫色掩模)是分割(由计算机算法产生),例如这可能是从医学图像中定位心脏的尝试。另一种(例如绿色)是金标准(即心脏,由临床专家鉴定)。在有白色的地方,两个形状重叠。黑色像素是背景。

两个图像是相同的(即分割算法的结果,以及黄金标准,在两个图像中都是相同的),除了第二个图像中有很多背景“填充”(例如,这可能代表两个实验两台不同的 X 射线机,其中第二台机器的射线更宽,覆盖更多的身体区域,但心脏的大小在两个图像集中是相同的)。

显然,由于两个图像中的分割和黄金标准是相同的,如果我们根据黄金标准评估分割准确度,我们希望我们的度量在两个实验中输出相同的“准确度”结果。

然而,如果我们尝试使用 Russel-Rao 方法评估分割的质量,我们会得到正确图像的误导性高准确度(接近 100%),因为“正确识别为背景像素的背景像素”有助于集合的整体准确性,背景像素在第二个集合中不成比例地表示。我们想要在医学分割中评估重叠的对象通常是巨大背景中的微小斑点,因此这对我们来说不是很有用。此外,如果我们试图将一种分割算法的准确性与另一种进行比较,并且在不同大小的图像上对两者进行评估,这将导致问题!(或者,等效地,在不同的尺度上)。嵌入图像的缩放/大小不应该对针对黄金标准的分割评估产生影响!.

相比之下,tanimoto 系数不关心背景像素,使其对“比例”保持不变。因此就 tanimoto 系数而言,这两个集合的相似性将是相同的,使其成为我们用来评估分割算法质量的更有用的相似性度量。