数据挖掘 - 将交易分类为恶意交易 - 吾爱随笔录

数据挖掘分类大数据

2021-09-29 17:17:34

我有一个公司的虚假交易大数据集。每行包含用户名、信用卡号、时间、使用的设备和交易中的金额。我需要将每笔交易分类为恶意或非恶意，我不知道从哪里开始。用手做会很傻。

我在想可能检查信用卡的使用频率，是否在某个时间持续使用，或者是否在许多不同的设备（例如 iOS 和 Android）上使用它，这些都是可能的起点。我对这一切和 ML 还是很陌生。会有一些针对这个问题的最佳 ML 算法吗？

另外，附带的问题是：以便宜的价格托管大约 600 GB 数据的好地方是什么？

谢谢

3个回答

这个问题通常被称为“信用卡欺诈检测”

有几种分类算法旨在解决这个问题。

借助您拥有的数据集的知识，决策树算法可用于从非恶意交易中检测恶意交易。本文是学习和发展关于欺诈检测的直觉以及使用决策树和 SVM 等基本分类算法解决问题的好资源。

还有其他几篇论文使用神经网络、逻辑回归、遗传算法等算法解决了这个问题。但是，使用决策树算法的论文是开始学习的好地方。

以便宜的价格托管 600 GB 左右的数据的好地方是什么？

Aws S3将是一种不错的廉价方式。它还与 Redshift 很好地集成，以防您想对数据进行复杂的分析。

基于规则的分类器通常更适合这个问题，因为您的大多数特征都将包含离散值。

因此，决策树、提升、随机森林应该为您完成这项工作。

您应该始终牢记的一件事是您将如何评估您的模型。对于欺诈检测，确保完全消除假阴性。误报是好的，但反之则很危险。

Xgboost 算法有一个特殊的参数叫做 scale-pos weight 来处理不平衡的分类问题。它基本上控制了正负权重的平衡。您可以参考此链接了解更多详情。http://xgboost.readthedocs.io/en/latest/parameter.html

其它你可能感兴趣的问题