据我所知,可以拟合线性回归模型,然后拟合第二个模型,通过使用其他一些变量来预测第一个模型的残差。通过这一点,您可以了解它们对使用更高级别模型建模的关系的影响。所以目的不是检查模型的拟合度,而是更深入地了解数据。不幸的是,我找不到任何有关这方面的文献。
这种分析有名称吗?如何以及为什么这样做?优缺点都有什么?你能提供这方面的任何文献吗?
据我所知,可以拟合线性回归模型,然后拟合第二个模型,通过使用其他一些变量来预测第一个模型的残差。通过这一点,您可以了解它们对使用更高级别模型建模的关系的影响。所以目的不是检查模型的拟合度,而是更深入地了解数据。不幸的是,我找不到任何有关这方面的文献。
这种分析有名称吗?如何以及为什么这样做?优缺点都有什么?你能提供这方面的任何文献吗?
这被称为残差指数,尽管不一致。我想您对其进行的分析类型将取决于您感兴趣的问题(因为大多数会导致某种程度的“更深入的理解”),利弊也是如此。 Garcia-Berthou在http://onlinelibrary.wiley.com/doi/10.1046/j.1365-2656.2001.00524.x/full中讨论了此类应用的一个示例的缺点,例如“没有统计依据的临时顺序程序”换句话说,如果您怀疑其他因素正在影响响应,为什么不从一个能够解释这些多个因素及其相互作用的模型开始。然而,在其他情况下,它是可以证明的,并且有其在空间分析中使用的有效示例。
作为您问题的部分答案,您可以构建一个残差模型(也称为方差模型),将原始模型的残差建模为预测响应的函数(例如),如下所示(以 R 表示法):
residual.model <-
lm(abs(residuals(original.model)) ~ predict(original.model), ...)
然后,您可以检查残差模型以更深入地了解数据。例如,您可以从残差模型估计预测区间。
残差通常比用于构建模型的原始数据噪声更大,因此残差模型的不确定性会比原始模型更多。
上述残差模型使用 lm 并因此假设(至多)绝对残差和预测响应之间存在线性关系,这通常是对(未知)潜在现实的足够好的近似——或者我应该说,线性考虑到残差中的噪声,残差模型通常是您想要使用的最复杂的残差模型。
我的 earth R 包主要使用上述想法构建方差模型(但这些想法相当普遍,不仅适用于 earth/ MARS 模型)。一些背景理论可以在包小插图 Variance models in earth中找到。阅读小插图时,请在脑海中将模型名称替换为“earth”,例如将“lm”替换为“earth”。
可以在上面的小插图中找到其他参考资料。Carroll and Ruppert Transformation and Weighting in Regression特别有用。