在等效于 k 分类变量的回归平滑样条中选择 k 个节点?

机器算法验证 非线性回归 套索 岭回归 平滑 样条
2022-03-28 08:32:18

我正在研究一个预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄和住院风险之间存在很强的非线性关系:

在此处输入图像描述

我正在考虑针对患者年龄使用惩罚回归平滑样条曲线。根据统计学习的要素(Hastie et al, 2009, p.151),最佳结的位置是每个成员年龄的唯一值一个结。

鉴于我将年龄保留为整数,惩罚平滑样条是否等效于运行具有 101 个不同年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个以供参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小到零。

3个回答

好问题。我相信您提出的问题的答案 - “惩罚平滑样条曲线相当于运行岭回归或套索” - 是的。有许多来源可以提供评论和观点。可能想从这个 PDF 链接开始如注释中所述:

“拟合平滑样条模型相当于在自然样条的基础上执行一种形式的岭回归。”

如果您正在寻找一些一般性的阅读材料,您可能会喜欢查看这篇关于惩罚回归的优秀论文:The Bridge Versus the Lasso这可能有助于回答惩罚平滑样条是否完全等效的问题——尽管它提供了更一般的视角。我确实觉得这很有趣,因为他们将不同的技术相互比较,特别是带有 LASSO 的新桥回归模型以及 Ridge 回归。

另一个更具策略性的检查位置可能是R中的 smooth.spline 包的包说明。请注意,它们暗示了这里的关系,通过观察:“使用这些定义,其中 B 样条基表示可以表示为 f = X c (即 c 是样条系数的向量),惩罚对数似然是,因此是解(岭回归)L=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy

考虑到情节,我不确定你真的想要这么多结。

看起来您可能有一些特定年龄的小样本;74 的峰值和低端和高端的 0 值几乎没有意义。

鉴于您站点的来源的权威性,也许您想要限制三次样条,而结的数量要少得多?

我迟到了这个讨论,但看看数据图表...... 70 岁以上数据中明显的尖峰并不是与年龄相关风险的真实反映,它是稀疏数据和一些随机性的症状。

您不想使用每年一结来建模,这肯定会导致过度拟合噪声。

此外,如果您查看女性与男性,您会发现一个非常不同的模式。15-30 岁年龄段的大部分高峰将是产科。