高级回归建模示例

机器算法验证 多重回归 广义线性模型 数据转换 样条 非线性
2022-01-26 20:35:51

我正在寻找一个高级线性回归案例研究,说明使用 GLM 或 OLS 对复杂的多重非线性关系进行建模所需的步骤。很难找到超出基本学校示例的资源:我读过的大多数书籍不会比响应的对数转换加上一个预测变量的 BoxCox 或最好情况下的自然样条更进一步。到目前为止,我看到的所有示例都在单独的模型中处理每个数据转换问题,通常在单个预测器模型中。

我知道 BoxCox 或 YeoJohnson 转换是什么。我正在寻找的是一个详细的、真实的案例研究,其中的响应/关系并不明确。例如,响应并非严格为正(因此您不能使用 log 或 BoxCox),预测变量之间与响应之间存在非线性关系,最大似然数据转换似乎并不意味着标准 0.33或 0.5 指数。此外,发现残差方差是非恒定的(它从来都不是),因此也必须转换响应,并且必须在非标准 GLM 族回归或响应转换之间做出选择。研究人员可能会做出选择以避免过度拟合数据。

编辑

到目前为止,我收集了以下资源:

  • 回归建模策略,F. Harrell
  • 应用计量经济学时间序列,W. Enders
  • 使用 R、G. Petris 的动态线性模型
  • 应用回归分析,D. Kleinbaum
  • 统计学习简介,G. James/D。威腾

我只阅读了最后一篇(ISLR),它是一篇非常好的文章(我的手表上有 5 颗星),尽管它比高级回归建模更面向 ML。

还有一篇关于 CV好帖子提出了一个具有挑战性的回归案例。

4个回答

前面已经提到过Regression Modeling Strategies和ISLR,是两个非常好的建议。我还有其他一些你可能想要考虑的。

Kuhn and Johnson 的Applied Predictive Modeling包含许多很好的案例研究,并且非常实用。

R 实用数据科学在其应用程序的上下文中处理实用(回归)建模-主要作为业务情况下的预测模型。

Generalized Additive Models: An Introduction with R by Simon Wood 很好地处理了广义加法模型以及如何使用他mgcv的 R 包来拟合它们。它确实包含一些重要的实际示例。使用 GAM 模型是找出“正确”变换的替代方法,因为这是通过样条展开和惩罚最大似然估计以数据自适应方式完成的。然而,还需要做出其他选择,例如链接功能的选择。

R的mboost包也适合 GAM 模型,但通过提升使用不同的方法。我推荐该软件包的教程(其中一个 Vignettes)。

我还会提到Hendry 和 Doornik 的《经验模型发现和理论评估》,尽管我自己还没有读过这本书。它已被推荐给我。

您可以找到的关于高级、多重、复杂(包括非线性)回归的最佳课程材料之一是基于 Frank E. Harrell Jr. 的《回归建模策略》一书。

评论中正在讨论这本书,但不是这个材料,它本身就是一个很好的资源。

我会推荐 Joshua D. Angrist 和 Jörn-Steffen Pischke的《 Mostly Harmless Econometrics 》一书

这是最真实的世界,地球上的盐,我拥有的文字,它超级便宜,大约 26.00 美元新。这本书是为研究生统计学家/经济学家写的,所以它非常先进。

现在这本书并不完全符合您的要求,因为它不像内生性、解释和聪明的回归设计等核心基础知识那样关注“复杂的、多重非线性关系”。

但我提供这本书是为了说明一个观点。也就是说,当涉及到回归分析的实际应用时,最具挑战性的问题通常与我们的模型不够复杂这一事实无关......相信我,我们非常擅长鼓吹非常复杂楷模!相反,最大的问题是

  1. 内生性
  2. 没有我们需要的所有数据
  3. 拥有大量数据......而且一切都是一团糟!
  4. 对许多人来说,无法正确解释他们自己的模型(随着我们使模型变得更复杂,这个问题变得更加普遍)

对 GMM、非线性过滤器和非参数回归的深入了解几乎涵盖了您列出的所有主题,并且可以随着您的学习而学习。然而,对于现实世界的数据,这些框架有可能变得不必要地复杂,而且往往是有害的。

常常是巧妙地简单而不是完全概括和高度复杂的能力,这对现实世界的分析最有益。这本书将帮助你解决前者。

您可以参考 Introduction to Statistical Learning with R (ISLR),这本书详细讨论了样条曲线和多项式回归的案例。