我正在寻找一个高级线性回归案例研究,说明使用 GLM 或 OLS 对复杂的多重非线性关系进行建模所需的步骤。很难找到超出基本学校示例的资源:我读过的大多数书籍不会比响应的对数转换加上一个预测变量的 BoxCox 或最好情况下的自然样条更进一步。到目前为止,我看到的所有示例都在单独的模型中处理每个数据转换问题,通常在单个预测器模型中。
我知道 BoxCox 或 YeoJohnson 转换是什么。我正在寻找的是一个详细的、真实的案例研究,其中的响应/关系并不明确。例如,响应并非严格为正(因此您不能使用 log 或 BoxCox),预测变量之间与响应之间存在非线性关系,最大似然数据转换似乎并不意味着标准 0.33或 0.5 指数。此外,发现残差方差是非恒定的(它从来都不是),因此也必须转换响应,并且必须在非标准 GLM 族回归或响应转换之间做出选择。研究人员可能会做出选择以避免过度拟合数据。
编辑
到目前为止,我收集了以下资源:
- 回归建模策略,F. Harrell
- 应用计量经济学时间序列,W. Enders
- 使用 R、G. Petris 的动态线性模型
- 应用回归分析,D. Kleinbaum
- 统计学习简介,G. James/D。威腾
我只阅读了最后一篇(ISLR),它是一篇非常好的文章(我的手表上有 5 颗星),尽管它比高级回归建模更面向 ML。
还有一篇关于 CV的好帖子提出了一个具有挑战性的回归案例。