为什么非对称二进制属性的测量不包括 t(两者的值都为 0)?

数据挖掘 数据挖掘 统计数据 数据集
2022-03-11 07:30:27

我正在自学数据挖掘,现在正在努力解决这个问题。

根据此表(http://slidewiki.org/slide/22352 ),如果属性是不对称的,则在没有t的情况下计算不相似性(两者的值均为 0)

让我举个例子吧。

有 2 个对象,称为 Products。

它们有 2 个属性,颜色和尺寸。

  • 颜色是红色(1)和蓝色(0)(它们是二进制的)。
  • SIZE 是 BIG(1) 或 SMALL(0)(它们也是二进制的)。

当有 RED-BIG(1-1) 和 RED-SMALL(1-0) 对象时,无论属性是对称的还是不对称的,d 都是 1/2。

但是,如果它们是 BLUE-SMALL(0-0) 和 BLUE/BIG(0-1),d 是对称的 1/2,但不对称的 1/1。

差异是怎么来的?在这两种情况下,只有一个区别,但不同之处并不相同。

1个回答

我知道这是旧帖子,但我也在寻找这个问题的答案。这是我得到的:

首先,二元不对称属性只关心 1 值。例如,在根据患者的症状测量患者的距离时,1 表示存在症状,0 表示不存在。或者另一个基于单词/术语的出现来测量2个文档之间距离的示例(大多数这些情况不使用二进制,但仍然是不对称的),0表示文档中不存在该术语。

在这 2 种情况下,症状或术语的数量可能非常庞大,可能导致 1 条记录中出现大量 0 值。这是因为一种疾病可能只有少量症状,或者一份文档可能只包含少量单词/术语。如果所有这些 0 值都用于计算两条记录之间的距离,那么相似度可能会很大。例子

记录 1 : 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

记录2:0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

不对称:d(1,2) = 3/4 --> 相似度(1,2) = 1-3/4 = 1/4

如果我们认为它是对称的:d(1,2) = 3/20 -->similarity(1,2) = 1-3/20 = 17/20(大相似度)

这就是为什么两个记录之间具有相同 0 值的属性不包括在距离计算中的原因。