用于预测建模的多项式回归中系数的解释

机器算法验证 预测模型 回归系数
2022-04-09 12:50:53

我正在金融服务行业建立一个预测模型(二元目标变量)。我添加到模型中的(许多)潜在预测因素之一与客户检查账户余额趋势(纵向余额)有关。

我想捕捉余额是增加还是减少以及多少。我可以访问以某种方式返回的月末余额。我正在考虑的一件事是,对于每个客户 - 拟合多项式回归并将系数包含到我的预测模型中。

在 R 中,单个客户的示例:

balances <- c(657709,620729,713637,619224,558238,572402,536548,0,0,0)
time <- seq(1:10)
mod <- lm(balances~time+I(time*time))
mod$coefficients[2:3]

mod$coefficients[2:3]
time          I(time * time) 
61239.99      -13317.43 

问题:

  1. 想法?当然,拟合可能很差,但作为一个包含到预测模型中的全局过程,它有优点吗?有没有更好的办法?

  2. 似乎我已经看到了这些系数在速度和加速度方面的描述,但我在任何地方都找不到。这是对他们的真实解释吗?

3个回答

加州大学洛杉矶分校的解释

另一个链接

我认为一般的答案是:没那么容易。有很多方法可以解释导数,讨论曲线打开的方式等。但没有什么像线性模型那样简单明了。我的直觉是,您不应该将其建模为二次方。

我还会剔除零并将您的模型称为“尚未关闭的账户余额”。

与其他多项式模型一样,如果您在拥有数据的时间之外进行外推,则您的模型可能会比线性模型更差,因为该time * time术语可能占主导地位,其系数的符号将决定您预测的是大的正数还是大的正数负余额,对于许多人来说,余额更稳定。

正如亨利礼貌/正确地所说,这种拟合线性、正方形、立方等的过时方法的问题在于,您正在强制/使用潜在的(在我看来)无根据的确定性结构到模型上。当您进行插值或预测时,您会为拟合“付费”。考虑将三次方拟合到 4 个数据点时会发生什么。拟合完美/所有系数都很显着/r 平方为 1.00,但预测很可能是荒谬的。一种更简单且更正确的方法是将 y 变量建模为其过去的函数和用户建议的输入序列(包括任何必要的滞后)的函数,并且还结合任何经验确定的干预序列,例如脉冲、电平转换、季节性脉冲和/或本地时间趋势。这是众所周知的许多名称e。G。传递函数和 ARMAX 仅举两例。