当使用梯度增强树和 CNN 等机器学习模型时,在学习二元分类时是否需要(或被认为是一种总是好的做法)平衡正/负示例的数量?
给定P正例和N负例,其中P << N,我可以想到几个选择:(让我们忘记验证集和测试集)
选项 A)根本不平衡,将所有示例(完全P+N)放入训练集中,而不对其比率进行加权。
选项B)将所有示例(totally P+N)放入训练集中,但对所有正例1/2P和所有负例1/2N进行加权,使正例和负例的总权重相等。
选项 C)取所有P正例,然后采样P负例(从 中),并用这些例子以统一的权重进行N训练。2P
每种方法的优点/缺点是什么?我们通常采用哪种方法?