我有一个数据集,我想将其归类为欺诈/非欺诈,并且我有很多弱学习者。我担心的是欺诈比没有欺诈要多得多,所以我的弱学习器表现优于平均水平,但在整个集合中没有一个表现优于 50% 的准确度。
我的问题是我是否应该设置一半欺诈一半非欺诈的测试和训练集,或者我是否应该只使用具有代表性的样本。
我有一个数据集,我想将其归类为欺诈/非欺诈,并且我有很多弱学习者。我担心的是欺诈比没有欺诈要多得多,所以我的弱学习器表现优于平均水平,但在整个集合中没有一个表现优于 50% 的准确度。
我的问题是我是否应该设置一半欺诈一半非欺诈的测试和训练集,或者我是否应该只使用具有代表性的样本。
是否有可能将生成的数据添加到您的数据集中会降低欺诈/非欺诈比率并使您的数据集更具代表性/可用性?
在 GenieLog,我们正在为设计和测试欺诈检测工具生成测试数据。我们的生成器 GEDIS Studio 我们可以定义常规配置文件和欺诈者配置文件,将每个类别实例化为可定制的比率(例如,2% 的客户将欺诈性地使用生成的事件。)
我们为电信 CDR ( http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html ) 和信用卡使用成功地做到了这一点。在http://www.data-generator.com上可以免费访问在线生成器
我很确定即使该工具不符合您的需求,至少该方法也很有价值。否则我有兴趣阅读任何反对意见:)
问候
训练集必须代表您的应用程序/算法实际要面对的数据集。我建议你取一个有代表性的样本,而不是将训练集和测试集完全分为一半欺诈和一半非欺诈。但请确保训练集包含欺诈的正面和负面示例,以便您的分类器表现更好。
在特定类别确实是少数的情况下,我建议使用稀有类别检测。在这种欺诈/非欺诈的特殊情况下,欺诈是一种罕见的类别。它是一个活跃的研究领域 - 请参阅稀有类别检测
我认为这取决于您的数据集。处理不平衡数据集的方法有很多,只要搜索一下,例如https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set。我认为最简单的方法是在训练集和测试集中使用相同的类分布。
如果您的少数类数量很少,您可以尝试一类分类。