我负责防止欺诈用户使用我们的解决方案的欺诈检测模型。我的模型表现很好,但我遇到的问题是,模型的性能越高,我的训练集中的欺诈用户就越少,因此与现实世界的数据相比,它变得不平衡。为了解决这个问题,我们引入了一个随机过程,让一些用户通过而不被评分,这样我们就可以继续从无偏见的数据中学习。理想情况下,我应该只在这个无偏数据集上训练我的模型,但它很小,不使用大部分数据是一种耻辱。因此,我想做以下事情:
- 在整个集合上训练我的模型:评分数据集(大但偏向好用户)+ 未评分数据集(小但无偏见)
- 仅使用未评分的数据集校准模型的概率
你觉得这怎么样 ?你能想到它会带来的任何缺点或偏见吗?