我正在训练一个模型(NN),它获取一些数据作为输入并输出范围内的单个值. 目前,我的数据集中输出的平均值在 0.5 左右,但我知道未来的数据将主要由 0.0 组成,因此最终会出现向 0.0 的强烈数据不平衡。我希望训练过程是面向未来且可扩展的,因此我试图找到一种自动重新平衡数据集的方法。我的库(Keras)支持训练中的样本权重,这似乎是一种不丢失任何信息的直接方法。
基本上,我认为我正在寻找的是一个功能给定一个训练例子给我一个重量, 使得所有训练样例的加权平均与权重是. 我知道有许多具有此属性的权重配置,但当然权重应该尽可能接近 1,并且绝对. 我也意识到这对于例如所有数字都相同或所有数字都相同的情况是不可能的. 但是让我们假设我的数据足够多样化。
我确定我不是第一个想到这一点的人,但我找不到任何解决方案/最佳实践。我想我可以把它当作它自己的一个小优化问题,但我希望有更简单的东西。