使用集成方法的分类模型精度

数据挖掘 机器学习 随机森林 集成建模
2021-09-17 16:02:09

我在一本基于大数定律的机器学习教科书中看到了这句话:

假设您构建了一个包含 1,000 个分类器的集合,这些分类器的正确率只有 51%(几乎不比随机猜测好)。如果您预测多数投票类别,则可以期望高达 75% 的准确率!

如果我们考虑平均超过 1000 个预测,我理解这个类比,但多数票如何从 51%(个人)导致 75% 的准确度?

1个回答

这来自二项分布,你有n=1000 独立试验(模型), p=0.51 每个模型都是正确的,并且由于您关心多数票,因此您至少希望获得 k=500成功的试验。这导致:

Pr(k500 models are right)=k=5001000(1000k)0.51k(10.51)1000k=0.746750.75

这是我的计算方法:

    import numpy as np
    from scipy.stats import binom
    np.sum([binom.pmf(k,1000,0.51) for k in range(500,1001)])