确定机器学习模型在特征稳定性方面是否过拟合

数据挖掘 机器学习 Python 逻辑回归 过拟合
2022-02-17 11:24:32

我需要知道如何知道我是否在训练数据上过度拟合了我的机器学习模型。我使用的性能指标是 Logistic Loss。特征的稳定性会影响我的模型的性能吗?如果是,它们是如何关联的?

1个回答

您需要寻找训练损失以及交叉验证和测试损失的差异。如果这些值很低,则意味着该模型表现得相当好。理想情况下,训练损失应该大致等于交叉验证和测试损失。如果不是,则模型可能过拟合。

这种差异还暗示训练数据点与交叉验证和测试数据点之间的重叠很小。据说这些特征是不稳定的。在这种情况下,模型只能看到训练数据中的数据点,而不是交叉验证和测试数据中的数据点,从而过度拟合。因此,它表现不佳。您可以通过计算交叉验证和测试数据中存在的数据点与数据集中不同特征的训练数据中的数据点的百分比来验证这一点。