找出为什么你的模型做得更好?

数据挖掘 机器学习 评估 表现
2021-10-01 18:19:56

我在一个数据集上拟合了一个逻辑回归模型,得到了 0.70 的 AUC 分数。我在模型中添加了一些额外的热编码分类特征,AUC 略微提高到 0.74。

如何评估模型的改进情况?哪些图/其他分析用于评估性能增益?

我知道模型得到了改进,但我希望能够解释为什么添加这些功能会改进模型。

这只是一个一般的数据科学问题。

谢谢!

3个回答

首先,添加特性会提高你的性能是有道理的,只要确保你仔细评估并且不要过度使用相同的验证数据集(如果是,请尝试在看不见的独立不同测试集上重新评估它)以确保你没有过度拟合.

之后,您可以在其聚合外观中使用 Shapley 值来查看哪些特征(或编码中的特定值)影响了模型决策

我认为没有一种方法可以做到这一点。我所做的是在添加它们之前分析第一个模型残差与新特征的相关性,或者在残差作为目标和新特征作为输入的基础上训练模型。如果您想了解您的特征的重要性或影响,您可以使用依赖图或使用 shap 值库来查看算法中每个特征的大小。

通常添加特征会提高模型的性能,因为它增加了模型预测目标的能力。

通常会问性能指标的相对增加是否值得模型复杂性的增加。AIC和 BIC 是用于评估模型拟合同时惩罚参数数量的信息标准方法。