基于分类器准确度的集成模型正确概率

数据挖掘 集成建模
2021-09-24 23:52:01

我试图了解我在尝试回答这个问题时做错了什么。确切的问题是:

假设我们有 3 个经过训练的预测模型,每个模型输出 -1 或 1。然后我们测试了这些模型的准确性并获得了以下结果:

模型 准确性
1 0.60
2 0.55
3 0.45

M为输出这三个模型的多个投票的集成模型。如果我们假设模型m 1m 2m 3的误差是独立的,那么M( x )在测试实例x上正确的概率是多少?

我想因为这是一个复数投票,并且分类错误是相互独立的,我可以简单地取三个分类器准确率的加权平均值:

P(X)=all models MjP(Ci|x,Mj)P(Mj)=1Lall models MjP(Ci|x,Mj)=13(0.60+0.55+0.45)=0.53

但有人告诉我这是不正确的(没有关于原因的上下文)。

有人可以解释为什么这是不正确的吗?如果这是多个投票(对我来说假设每个分类器的投票是相等的),为什么我不能简单地取加权平均值?

2个回答

这不是实际数据,而是概率。所以你应该考虑投票的所有场景。

为了合奏是正确的,
任何两个或三个都应该是正确的

=[m1m2(1m3)+m1(1m2)m3)+(1m1)m2m3]+[m1m2m3]

= [0.6*0.55*(1-0.45) + 0.6*(1-0.55)*0.45 + (1-0.6)*0.55*0.45] + 0.6*0.55*0.45

= 0.5505

如果模型的 1、2 和 3 分别为

  • 正确,正确,正确

  • 正确,正确,错误

  • 正确,错误,正确

  • 错误的,正确的,正确的

同样,如果他们是,你会得到一个错误的预测

  • 错误的,错误的,正确的
  • 错,对,错
  • 对,错,错
  • 错错错错

所以,一共有8种可能。

第一个事件 C、C、C 的可能性为 0.6 × 0.55 × 0.45

第五个事件 W、W、C 的可能性为 0.4 × 0.45 × 0.45

您想计算事件 1-4 和 5-8 的可能性并将它们分别相加。您还希望将它们全部加起来为 1-8。第一个总和除以总数为您提供您正在寻找的答案。