数据挖掘 - 使用集成方法的分类模型精度 - 吾爱随笔录

数据挖掘机器学习随机森林集成建模

2021-09-17 16:02:09

我在一本基于大数定律的机器学习教科书中看到了这句话：

假设您构建了一个包含 1,000 个分类器的集合，这些分类器的正确率只有 51%（几乎不比随机猜测好）。如果您预测多数投票类别，则可以期望高达 75% 的准确率！

如果我们考虑平均超过 1000 个预测，我理解这个类比，但多数票如何从 51%（个人）导致 75% 的准确度？

1个回答

这来自二项分布，你有 $n=1000$ 独立试验（模型）， $p=0.51$ 每个模型都是正确的，并且由于您关心多数票，因此您至少希望获得 $k=500$ 成功的试验。这导致：

Pr (k \geq 500 models are right) = \sum_{k = 500}^{1000} (\binom{1000}{k}) {0.51}^{k} (1 - 0.51)^{1000 - k} = 0.74675 \approx 0.75

$\text{Pr}(k\geq500 \text{ models are right}) = \sum^{1000}_{k=500}\binom{1000}{k}0.51^{k}(1-0.51)^{1000-k}=0.74675\approx0.75$

这是我的计算方法：

    import numpy as np
    from scipy.stats import binom
    np.sum([binom.pmf(k,1000,0.51) for k in range(500,1001)])

其它你可能感兴趣的问题