数据挖掘 - 训练和测试 AdaBoost 以进行低概率分类 - 吾爱随笔录

数据挖掘分类阶级失衡

2021-09-26 16:41:36

我有一个数据集，我想将其归类为欺诈/非欺诈，并且我有很多弱学习者。我担心的是欺诈比没有欺诈要多得多，所以我的弱学习器表现优于平均水平，但在整个集合中没有一个表现优于 50% 的准确度。

我的问题是我是否应该设置一半欺诈一半非欺诈的测试和训练集，或者我是否应该只使用具有代表性的样本。

4个回答

是否有可能将生成的数据添加到您的数据集中会降低欺诈/非欺诈比率并使您的数据集更具代表性/可用性？

在 GenieLog，我们正在为设计和测试欺诈检测工具生成测试数据。我们的生成器 GEDIS Studio 我们可以定义常规配置文件和欺诈者配置文件，将每个类别实例化为可定制的比率（例如，2% 的客户将欺诈性地使用生成的事件。）

我很确定即使该工具不符合您的需求，至少该方法也很有价值。否则我有兴趣阅读任何反对意见:)

问候

训练集必须代表您的应用程序/算法实际要面对的数据集。我建议你取一个有代表性的样本，而不是将训练集和测试集完全分为一半欺诈和一半非欺诈。但请确保训练集包含欺诈的正面和负面示例，以便您的分类器表现更好。

在特定类别确实是少数的情况下，我建议使用稀有类别检测。在这种欺诈/非欺诈的特殊情况下，欺诈是一种罕见的类别。它是一个活跃的研究领域 - 请参阅稀有类别检测

我认为这取决于您的数据集。处理不平衡数据集的方法有很多，只要搜索一下，例如https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set。我认为最简单的方法是在训练集和测试集中使用相同的类分布。

如果您的少数类数量很少，您可以尝试一类分类。

其它你可能感兴趣的问题