您可以平衡您的数据集。

许多模型使用批量样本。如果您有一个非常不平衡的数据集，您可以简单地拆分它并确保您的批次是平衡的（例如，对于神经网络，使用 32 个样本的小批量，您可以从欺诈用户中抽取 16 个，从非欺诈用户中抽取 16 个）。

在学习阶段，这可以确保模型不仅输出最常见的类，而是尝试学习区分两者。

严重不平衡的分类任务不需要特定类型的模型，您可以使用不同的模型。

您有两个选择：要么使用类权重（例如在ScikitLearn SVM 中将它们设置为“平衡” ），以表明类中的样本更重要（代表性不足），要么重新平衡您的数据集。出于重新平衡的目的，并且假设您使用的是 Python，我推荐使用Imbalanced Learn。那里有过采样、欠采样、过采样以及欠采样或集成采样的算法。如果您使用它们，请检查您创建的合成样本的合理性，方法是首先降低维度，然后将它们绘制成二维。合成样本是否与真实类别相似？

我还建议您考虑（严重）不平衡问题的相关指标，并考虑无信息率。这是另一个问题。

其它你可能感兴趣的问题

上一篇为什么只有当成本解决方案是非递减函数时，广度优先搜索才是最优的？下一篇训练机器学习算法所需的最少计算资源是多少？