我有一个公司的虚假交易大数据集。每行包含用户名、信用卡号、时间、使用的设备和交易中的金额。我需要将每笔交易分类为恶意或非恶意,我不知道从哪里开始。用手做会很傻。
我在想可能检查信用卡的使用频率,是否在某个时间持续使用,或者是否在许多不同的设备(例如 iOS 和 Android)上使用它,这些都是可能的起点。我对这一切和 ML 还是很陌生。会有一些针对这个问题的最佳 ML 算法吗?
另外,附带的问题是:以便宜的价格托管大约 600 GB 数据的好地方是什么?
谢谢
我有一个公司的虚假交易大数据集。每行包含用户名、信用卡号、时间、使用的设备和交易中的金额。我需要将每笔交易分类为恶意或非恶意,我不知道从哪里开始。用手做会很傻。
我在想可能检查信用卡的使用频率,是否在某个时间持续使用,或者是否在许多不同的设备(例如 iOS 和 Android)上使用它,这些都是可能的起点。我对这一切和 ML 还是很陌生。会有一些针对这个问题的最佳 ML 算法吗?
另外,附带的问题是:以便宜的价格托管大约 600 GB 数据的好地方是什么?
谢谢
基于规则的分类器通常更适合这个问题,因为您的大多数特征都将包含离散值。
因此,决策树、提升、随机森林应该为您完成这项工作。
您应该始终牢记的一件事是您将如何评估您的模型。对于欺诈检测,确保完全消除假阴性。误报是好的,但反之则很危险。
Xgboost 算法有一个特殊的参数叫做 scale-pos weight 来处理不平衡的分类问题。它基本上控制了正负权重的平衡。您可以参考此链接了解更多详情。http://xgboost.readthedocs.io/en/latest/parameter.html