B样条与回归中的高阶多项式

机器算法验证 回归 多重回归 样条 多项式 正则化
2022-03-16 12:49:01

我没有具体的例子或任务。我只是使用 b 样条的新手,我想在回归上下文中更好地理解这个函数。

假设我们要评估响应变量和一些预测变量之间的关系。预测变量包括一些数值变量以及一些分类变量。yx1,x2,...,xp

假设在拟合回归模型后,其中一个数值变量,例如是显着的。之后的一个合乎逻辑的步骤是评估是否需要更高阶多项式,例如:,以便在不过度拟合的情况下充分解释关系。x1x12x13

我的问题是:

  1. 您在什么时候选择 b 样条或简单的高阶多项式。例如在 R 中:

    y ~ poly(x1,3) + x2 + x3
    

    对比

     y ~ bs(x1,3) + x2 + x3
    
  2. 您如何使用绘图来告知您在这两者之间的选择以及如果从绘图中不清楚会发生什么(例如:由于大量数据点)

  3. 和假设之间的双向交互项x2x3

  4. 对于不同类型的模型,上述情况如何变化

  5. 您是否会考虑从不使用高阶多项式并始终拟合 b 样条并惩罚高灵活性?

2个回答

我通常只会考虑样条而不是多项式。多项式不能对阈值进行建模,并且通常是不受欢迎的全局性,即在预测变量的一个范围内的观察对模型在不同范围内的作用有很大的影响(Magee,1998,美国统计学家和 Frank Harrell 的回归建模策略)。当然,在极值节点之外是线性的受限样条线更适合外推,甚至是预测变量极值的内插。

您可能需要考虑多项式的一种情况是向非技术人员解释您的模型很重要。人们比样条更了解多项式。(编辑:Matthew Drury 指出,人们可能只认为他们比样条更了解多项式。我不会在这个问题上偏袒任何一方。)

在决定处理非线性的不同方法时,绘图通常不是很有用。最好做交叉验证。这也将帮助您评估互动,或找到一个好的惩罚。

最后,我的回答不会随着模型的种类而改变,因为以上几点对任何统计或 ML 模型都有效。

在“统计学习的要素”的第 7.4.5 节中,据说样条曲线通常比多项式回归提供更好的结果,因为:

  • 它产生灵活的配合;
  • 产生更稳定的估计;
  • 多项式会在边界处产生不希望的结果。