将交易分类为恶意交易

数据挖掘 分类 大数据
2021-09-29 17:17:34

我有一个公司的虚假交易大数据集。每行包含用户名、信用卡号、时间、使用的设备和交易中的金额。我需要将每笔交易分类为恶意或非恶意,我不知道从哪里开始。用手做会很傻。

我在想可能检查信用卡的使用频率,是否在某个时间持续使用,或者是否在许多不同的设备(例如 iOS 和 Android)上使用它,这些都是可能的起点。我对这一切和 ML 还是很陌生。会有一些针对这个问题的最佳 ML 算法吗?

另外,附带的问题是:以便宜的价格托管大约 600 GB 数据的好地方是什么?

谢谢

3个回答

这个问题通常被称为“信用卡欺诈检测

有几种分类算法旨在解决这个问题。

借助您拥有的数据集的知识,决策树算法可用于从非恶意交易中检测恶意交易。本文是学习和发展关于欺诈检测的直觉以及使用决策树和 SVM 等基本分类算法解决问题的好资源。

还有其他几篇论文使用神经网络、逻辑回归、遗传算法等算法解决了这个问题。但是,使用决策树算法的论文是开始学习的好地方。

以便宜的价格托管 600 GB 左右的数据的好地方是什么?

Aws S3将是一种不错的廉价方式。它还与 Redshift 很好地集成,以防您想对数据进行复杂的分析。

基于规则的分类器通常更适合这个问题,因为您的大多数特征都将包含离散值。

因此,决策树、提升、随机森林应该为您完成这项工作。

您应该始终牢记的一件事是您将如何评估您的模型。对于欺诈检测,确保完全消除假阴性。误报是好的,但反之则很危险。

Xgboost 算法有一个特殊的参数叫做 scale-pos weight 来处理不平衡的分类问题。它基本上控制了正负权重的平衡。您可以参考此链接了解更多详情。http://xgboost.readthedocs.io/en/latest/parameter.html