客户资料

数据挖掘 机器学习 Python
2022-02-14 07:30:12

我有一个信用卡欺诈数据集。有两个群体,欺诈交易和非欺诈交易。您能否建议我可以使用什么 ML 算法来对这两个群体的主要特征进行建模。我需要创建两个配置文件:

例如:

欺诈交易 - 金额 < 90 美元的交易,交易发生在一天中的特定时间

非欺诈交易 - 金额 > 90 美元的交易,交易发生在一天中的特定时间。

我使用了描述性统计数据,并尝试分别查看这两个人群。但是有没有我可以用来区分这两者的机器学习模型,就像 1) 和 2)

对于每个人群,我有超过 2 个功能。

1个回答

我的建议是简单地开始并尝试构建类似于逻辑回归模型的东西来为您的数据集分类欺诈/无欺诈。这可以帮助您快速了解如何设计最佳特征来分离两个群体。

sklearn 中的逻辑回归: https ://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

另一种方法是此时使用 UMAP 之类的东西来更多地探索数据,以可视化数据中可能存在的结构并可以用于特征工程。

原始 UMAP 论文: https ://arxiv.org/abs/1802.03426

关于 UMAP 的示例博客文章: https ://pair-code.github.io/understanding-umap/