我正在研究某个与保险索赔相关的数据集,以将新获得的客户分类为索赔或非索赔。
训练集的基本问题是索赔和非索赔配置文件的极大不平衡,索赔仅占训练集的 0.26%。此外,大多数索赔主要集中在最后几年(数据按日期排序)。
在应用逻辑回归甚至随机森林对 70% 的数据进行训练时,测试结果远不令人满意。
我一直在寻找替代模型,并且偶然发现了这篇博文。引起我注意的特别一行是:
GBM 优于 rf_t。在论文中,二分类数据集的最佳分类器是avNNet_t,准确率为83.0%
虽然,没有真正解释为什么会这样。有人可以帮我打开这个“黑匣子”吗?哪种模型真正有效(在上述情况下),为什么?