我在一本基于大数定律的机器学习教科书中看到了这句话:
假设您构建了一个包含 1,000 个分类器的集合,这些分类器的正确率只有 51%(几乎不比随机猜测好)。如果您预测多数投票类别,则可以期望高达 75% 的准确率!
如果我们考虑平均超过 1000 个预测,我理解这个类比,但多数票如何从 51%(个人)导致 75% 的准确度?
我在一本基于大数定律的机器学习教科书中看到了这句话:
假设您构建了一个包含 1,000 个分类器的集合,这些分类器的正确率只有 51%(几乎不比随机猜测好)。如果您预测多数投票类别,则可以期望高达 75% 的准确率!
如果我们考虑平均超过 1000 个预测,我理解这个类比,但多数票如何从 51%(个人)导致 75% 的准确度?
这来自二项分布,你有 独立试验(模型), 每个模型都是正确的,并且由于您关心多数票,因此您至少希望获得 成功的试验。这导致:
这是我的计算方法:
import numpy as np
from scipy.stats import binom
np.sum([binom.pmf(k,1000,0.51) for k in range(500,1001)])