我们应该对连续变量进行分类吗?

机器算法验证 回归 造型 样条 分箱
2022-03-07 15:31:05

我知道以前有人问过这个问题,并且我已经阅读了对与分箱连续变量相关的早期查询的回复。我确实理解通常我们应该避免分箱,因为它可能会导致丢弃有用的信息(以及其他问题)。但是,我正在尝试建立一个逻辑回归模型,我的一个重要预测变量是一个连续变量。我尝试了 2 种不同的模型。在第一个中,我按原样(连续)输入变量,而在第二个中,我将其作为分类变量(按四分位数分类)输入。

第二个模型(带有分箱变量)具有较低的 AIC 分数和交叉验证错误。在这种特殊情况下,这是否可以被认为是分箱的充分理由?

1个回答

这可能意味着您的预测变量与响应具有非线性关系,并且分箱允许模型捕获一些这种非线性趋势。查看数据的散点图可以帮助您确定合适的拟合形状。您可能想尝试非线性连续拟合策略,例如多项式或样条基础变换。