我正在使用自动编码器解决信用卡欺诈检测问题。我有一个关于我将使用的数据集的问题。
我从 Kaggle 下载了上述问题的数据集,该数据集高度不平衡:它仅包含 284,807 笔交易中的 492 笔欺诈。为什么数据集还没有平衡?我应该在应用自动编码器之前平衡它吗?
我正在使用自动编码器解决信用卡欺诈检测问题。我有一个关于我将使用的数据集的问题。
我从 Kaggle 下载了上述问题的数据集,该数据集高度不平衡:它仅包含 284,807 笔交易中的 492 笔欺诈。为什么数据集还没有平衡?我应该在应用自动编码器之前平衡它吗?
我相信这个想法是使欺诈/“正常交易”的比率与银行在现实生活中遇到的比率相似。
如果你平衡它,一旦你将你的解决方案应用于现实世界的数据,你可能会有很多误报,如果这对你来说可以玩,那不是银行想要的,因为他们不能阻止太多“正常”交易或客户将更换银行。根据这篇文章(https://www.quora.com/How-many-transactions-do-typical-banks-process-everyday),仅万事达卡就代表每天 34 亿笔交易,想象一下如果每天的 1%每天被阻止的交易,这将代表 3400 万笔无正当理由被阻止的交易。
它与许多想要平衡数据集的分类问题不同,在这里你尝试检测异常,根据定义,它们是罕见的,所以它们在你的数据集中应该是罕见的。