存在许多这样的系数(大多数在这里表示)。试着思考一下公式差异的后果是什么,尤其是当你计算一个系数矩阵时。
例如,想象一下对象 1 和 2 与对象 3 和 4 相似。但是 1 和 2 具有列表中的许多属性,而 3 和 4 仅具有很少的属性。在这种情况下,Russell-Rao(共同属性在考虑的属性总数中的比例)对于 1-2 对较高,对于 3-4 对较低。但是对于 1-2 和 3-4 对,Jaccard(共同属性与两个对象具有的属性的组合数量的比例= 如果任一对象具有属性则它们都具有属性的概率)将很高。
这种对“属性饱和度”基本级别的调整使得Jaccard比Russell-Rao更受欢迎和更有用,例如在聚类分析或多维缩放中。从某种意义上说,您可以通过选择Kulczynski-2度量来进一步细化上述调整,这是一个算术平均概率,即如果一个对象具有属性,则另一个对象也具有该属性:
(aa+b+aa+c)/2
这里两个对象的属性基(或字段)不是池化的,就像在 Jaccard 中那样,而是两个对象中的每一个都是自己的。因此,如果对象在它们所具有的属性数量上存在很大差异,并且“较贫穷”对象与“较富裕”对象共享的所有属性,Kulczynski 将是高的,而 Jaccard 将是中等的。
或者您可能更喜欢计算几何平均概率,即如果一个对象具有属性,则另一个对象也具有该属性,从而产生Ochiai度量:
aa+baa+c−−−−−−−−−−√
因为当只有一项增长时,乘积的增长比总和的增长要弱,所以只有当两个比例(概率)都很高时,落合才会真正高,这意味着要被落合认为相似,对象必须共享它们的大部分属性。简而言之,落合抑制相似性,如果b和c是不平等的。Ochiai 实际上是余弦相似度度量(Russell-Rao 是点积相似度)。
附言
仅仅是因为对于某些数据集,两个属性 (d) 同时缺失并没有传达任何信息吗?
说到相似性度量,不应将名义上的二分属性(例如女性、男性)与二元属性(存在与不存在)混为一谈。二元属性不是对称的(一般来说),——如果你和我有一个共同的特征,那就是我们称我们相似的基础;如果您和我都错过了该特征,则可能会或可能不会将其视为相似性的证据,具体取决于研究的背景。因此不同的处理方式d是可能的。
另请注意,如果您希望基于 1+名义属性(二分或多分)计算对象之间的相似性,请将每个此类变量重新编码为一组虚拟二进制变量。然后推荐的计算相似性度量将是Dice(当计算 1+ 组虚拟变量时,它等效于 Ochiai 和 Kulczynski-2)。