关联规则 - 支持、信心和提升

机器算法验证 数据挖掘 关联规则
2022-03-19 07:50:56

我正在尝试从我的交易数据集中挖掘关联规则,并且我对规则的支持、信心和提升有疑问。

假设我们有像 {X} -> {Y} 这样的规则

我知道支持度是 P(XY),置信度是 P(XY)/P(X),提升度是 P(XY)/P(X)P(Y),其中提升度是 X 和 Y 独立性的度量(1代表独立)

但是,我只是不知道如何用这些指标解释规则。我有高支持、高信心和低提升的规则,这是一个好规则吗?

因为高信心代表强关联,高支持代表他们的关联有多么有说服力。如此高的信心+高支持=良好的规则,我们可以忽略提升?

如果我要对我的规则进行排序/排名并选择,比如说最好的 10 个来检查,应该选择哪个指标作为排名变量?

1个回答

这取决于你的任务。通常你希望这三个都很高

  • 高支持:应该适用于大量案例
  • 高置信度:应该经常正确
  • 高升力:表明这不仅仅是巧合

考虑例如“雨”和“天”。假设我们住在赤道一个非常不幸的地方,那里有 50% 的时间在下雨,有 50% 的时间是白天,这些都是相互独立的。即在 25% 的时间下雨并且是白天。

然后我们得到了 25% 的支持——这对于大多数数据集来说是相当高的。我们也有 50% 的信心——这也相当不错。如果 50% 的访客购买我推荐的产品,我将成为亿万富翁。但是升力只有1,即没有提升。

请注意,在其他数据集上,您不会获得接近 25% 的支持。考虑一家拥有多种产品的超市。您认为有多少顾客购买卫生纸?