这是我第一次对财务数据做一些事情。我有一个包含帐号和有关每个客户的其他一些信息的数据集(有些客户跨越多行,因为我们每个月的信息都在不同的行中)。我设法清理并创建了一些模型,以下是混淆矩阵、分类报告和 AUC:
逻辑回归
[[185847 62897]
[ 1 1061]]
precision recall f1-score support
not buy 1.00 0.75 0.86 248744
buy 0.02 1.00 0.03 1062
accuracy 0.75 249806
macro avg 0.51 0.87 0.44 249806
weighted avg 1.00 0.75 0.85 249806
AUC train = 0.9168592981611143
AUC test = 0.9150300677458543
随机森林分类器:
[[245503 3241]
[ 960 102]]
precision recall f1-score support
not buy 1.00 0.99 0.99 248744
buy 0.03 0.10 0.05 1062
accuracy 0.98 249806
macro avg 0.51 0.54 0.52 249806
weighted avg 0.99 0.98 0.99 249806
AUC train = 0.9996866568080237
AUC test = 0.9139101966925902
梯度提升分类器:
[[184940 63804]
[ 3 1059]]
precision recall f1-score support
not buy 1.00 0.74 0.85 248744
buy 0.02 1.00 0.03 1062
accuracy 0.74 249806
macro avg 0.51 0.87 0.44 249806
weighted avg 1.00 0.74 0.85 249806
AUC train = 0.8800353734759541
AUC test = 0.8657829269466372
投票分类器(来自上述所有三个):
[[211316 37428]
[ 213 849]]
precision recall f1-score support
not buy 1.00 0.85 0.92 248744
buy 0.02 0.80 0.04 1062
accuracy 0.85 249806
macro avg 0.51 0.82 0.48 249806
weighted avg 0.99 0.85 0.91 249806
AUC train = 0.9987531510931085
AUC test = 0.9160262741936392
由于我没有任何经验,我不确定哪种模型会产生更好的结果。你能帮我理解哪一个以及为什么吗?谢谢!