假设我有几千只母鸡,我想将它们分为那些从不下蛋的母鸡和那些在生命中某个时刻会下蛋的母鸡。假设已经完美运行。
现在有几只母鸡会下蛋,但在某些时候不会在几年内下蛋。那些母鸡是极少数——比如说一百只。
现在,我希望我的网络对一只母鸡进行分类,该母鸡在某些时候会下蛋,但在几年内不会下蛋,作为第三类。
我的直觉告诉我,如果我对少数类别进行过采样,我的模型将简单地记住这数百个示例而无法进行泛化。
然而,当使用权重时,我的直觉会告诉我,我的模型无法记住这些样本,因为它没有足够频繁地遇到它们——有点像更高的学习率会导致更好的泛化,但由于粗略的步骤,拟合效果会更差。
然而,CrossValidated 上的所有帖子实际上都说过采样效果更好——但为什么呢?像我这样的小班也是如此吗?