使用模型平均的梯度增强树或神经网络?

数据挖掘 机器学习 分类 神经网络 准确性 gbm
2022-02-11 17:03:31

我正在研究某个与保险索赔相关的数据集,以将新获得的客户分类为索赔或非索赔

训练集的基本问题是索赔非索赔配置文件的极大不平衡,索赔仅占训练集的 0.26%。此外,大多数索赔主要集中在最后几年(数据按日期排序)。

在应用逻辑回归甚至随机森林对 70% 的数据进行训练时,测试结果远不令人满意。

我一直在寻找替代模型,并且偶然发现了这篇博文引起我注意的特别一行是:

GBM 优于 rf_t。在论文中,二分类数据集的最佳分类器是avNNet_t,准确率为83.0%

虽然,没有真正解释为什么会这样。有人可以帮我打开这个“黑匣子”吗?哪种模型真正有效(在上述情况下),为什么

1个回答

我相信在你的情况下,预测索赔比没有索赔更重要。正如您所说,您在训练数据上获得了 70% 的准确率,大多数情况下,由于记录较少,您可能会在索赔案例中做出错误的预测,相比之下,我建议使数据集平衡或选择随机平衡数据集(索赔和非部落各占 20%),并使用您以前应用的技术训练模型并在剩余数据上对其进行测试。如果可能,请针对您的业务案例使用不同的错误度量,例如为结果赋予权重。如果准确性没有提高,您可以在此数据上实施 GBM 技术。大多数情况下,GBM 可以做出更好的预测,因为它通过降低残差之间的相似性来增加残差中的随机性(白噪声)。您可以在此数据上应用许多不同的模型并检查准确性是否有所提高,最终我们应该能够理解模型以解释为什么他们应该使用此模型。此外,如果您使用具有不同模型的特征工程数据,您很有可能会比以前的模型做得更好。但是,这取决于您对业务的理解。