我正在自学数据挖掘,现在正在努力解决这个问题。
根据此表(http://slidewiki.org/slide/22352 ),如果属性是不对称的,则在没有t的情况下计算不相似性(两者的值均为 0)
让我举个例子吧。
有 2 个对象,称为 Products。
它们有 2 个属性,颜色和尺寸。
- 颜色是红色(1)和蓝色(0)(它们是二进制的)。
- SIZE 是 BIG(1) 或 SMALL(0)(它们也是二进制的)。
当有 RED-BIG(1-1) 和 RED-SMALL(1-0) 对象时,无论属性是对称的还是不对称的,d 都是 1/2。
但是,如果它们是 BLUE-SMALL(0-0) 和 BLUE/BIG(0-1),d 是对称的 1/2,但不对称的 1/1。
差异是怎么来的?在这两种情况下,只有一个区别,但不同之处并不相同。