数据挖掘 - 为什么非对称二进制属性的测量不包括 t（两者的值都为 0）？ - 吾爱随笔录

数据挖掘数据挖掘统计数据数据集

2022-03-11 07:30:27

我正在自学数据挖掘，现在正在努力解决这个问题。

让我举个例子吧。

有 2 个对象，称为 Products。

它们有 2 个属性，颜色和尺寸。

当有 RED-BIG(1-1) 和 RED-SMALL(1-0) 对象时，无论属性是对称的还是不对称的，d 都是 1/2。

但是，如果它们是 BLUE-SMALL(0-0) 和 BLUE/BIG(0-1)，d 是对称的 1/2，但不对称的 1/1。

差异是怎么来的？在这两种情况下，只有一个区别，但不同之处并不相同。

1个回答

我知道这是旧帖子，但我也在寻找这个问题的答案。这是我得到的：

首先，二元不对称属性只关心 1 值。例如，在根据患者的症状测量患者的距离时，1 表示存在症状，0 表示不存在。或者另一个基于单词/术语的出现来测量2个文档之间距离的示例（大多数这些情况不使用二进制，但仍然是不对称的），0表示文档中不存在该术语。

在这 2 种情况下，症状或术语的数量可能非常庞大，可能导致 1 条记录中出现大量 0 值。这是因为一种疾病可能只有少量症状，或者一份文档可能只包含少量单词/术语。如果所有这些 0 值都用于计算两条记录之间的距离，那么相似度可能会很大。例子

记录 1 : 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

记录2：0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

不对称：d(1,2) = 3/4 --> 相似度(1,2) = 1-3/4 = 1/4

如果我们认为它是对称的：d(1,2) = 3/20 -->similarity(1,2) = 1-3/20 = 17/20（大相似度）

这就是为什么两个记录之间具有相同 0 值的属性不包括在距离计算中的原因。

其它你可能感兴趣的问题