博文中已经解释了直观的推理:
如果我们的目标是预测,这将导致一定的偏差。更糟糕的是,这将是一个永久的偏差,因为随着样本量的增加,我们将不会有一致的估计。
因此,可以说(人为)平衡数据的问题比不平衡的情况更糟。
平衡数据有利于分类,但您显然会丢失有关出现频率的信息,这将影响准确度指标本身以及生产性能。
假设您正在识别来自英文字母(26 个字母)的手写字母。过度平衡每个字母的外观将使每个字母被分类(正确与否)的概率大约为 1/26,因此分类器将忘记原始样本中字母的实际分布。当分类器能够以高精度概括和识别每个字母时就可以了。
但是如果准确性和最重要的概括不是“那么高”(我不能给你一个定义——你可以把它想象成一个“最坏的情况”)——错误分类的点很可能会平均分布在所有字母中, 就像是:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
与没有平衡相反(假设“A”和“C”在文本中出现的概率要高得多)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
因此,频繁的案例将得到更少的错误分类。好不好就看你的任务了。对于自然文本识别,人们可能会争辩说频率较高的字母更可行,因为它们会保留原始文本的语义,使识别任务更接近于预测(语义代表趋势)。但是,如果您尝试识别ECDSA 密钥的屏幕截图(更多熵 -> 更少预测) - 保持数据不平衡将无济于事。所以,再次,这取决于。
最重要的区别是准确度估计本身是有偏差的(正如您在平衡字母表示例中看到的那样),因此您不知道模型的行为如何受到最罕见或最频繁点的影响。
PS 您始终可以先使用Precision/Recall指标跟踪不平衡分类的性能,然后决定是否需要添加平衡。
编辑:在估计理论中存在额外的混淆,正是样本均值和总体均值之间的差异。例如,您可能知道(可以说)英文字母在字母表中的实际分布,但您的样本(训练集)不足以正确估计它(使用)。因此,为了补偿 ,有时建议根据总体本身或从更大样本中已知的参数重新平衡类p(xi|θ)p(xi|θ^)θ^i−θi(因此更好的估计器)。然而,在实践中,由于每一步都存在偏差数据的风险(假设从技术文献、小说和整个图书馆中收集的英文字母),因此无法保证“更大的样本”是相同分布的,因此平衡仍然可能是有害的。
该答案还应阐明平衡的适用性标准:
类不平衡问题是由于没有足够的属于少数类的模式造成的,而不是由于正负模式本身的比率本身。一般来说,如果你有足够的数据,就不会出现“类不平衡问题”
作为结论,如果训练集足够大,人工平衡很少有用。没有来自较大同分布样本的统计数据也表明不需要人工平衡(尤其是预测),否则估计器的质量与“遇到恐龙的概率”一样好:
在街上遇到恐龙的概率是多少?
1/2 你要么遇到恐龙,要么没有遇到恐龙