何时使用广义线性模型而不是线性模型?
我知道广义线性模型允许例如误差有一些其他分布而不是正态分布,但为什么要关注误差的分布呢?比如为什么不同的误差分布有用?
何时使用广义线性模型而不是线性模型?
我知道广义线性模型允许例如误差有一些其他分布而不是正态分布,但为什么要关注误差的分布呢?比如为什么不同的误差分布有用?
GLM 是线性模型的更通用版本:线性模型是具有恒等链接的高斯 GLM 的特例。那么问题来了:为什么我们要使用其他链接函数或其他均值-方差关系?我们适合 GLM ,因为它们回答了我们感兴趣的特定问题。
例如,如果您对这些变量之间的关联感兴趣,那么在线性回归模型中拟合二元响应本质上并没有错。事实上,如果在暴露的较低 50% 中观察到较高比例的负面结果,而在较高 50% 中观察到较高比例的正面结果,这将产生一条正斜线,正确描述这些之间的正相关两个变量。
或者,您可能对使用 S 形曲线对上述关联进行建模感兴趣。这种曲线的斜率和截距说明了极端风险趋向于 0/1 概率的趋势。对数曲线的斜率也被解释为对数优势比。这激发了对 logit 链接功能的使用。类似地,非常接近 1 或 0 的拟合概率在研究设计的重复中可能往往变化较小,因此可以通过二项式均方差关系来解释,即这激发了逻辑回归。沿着这些思路,解决这个问题的更现代的方法将建议拟合一个利用对数链接的相对风险模型,这样指数趋势线的斜率就被解释为对数相对风险,比对数-相对风险更实用。赔率比。
好吧,有很多理由选择不同的误差分布。但我相信你不知道为什么我们首先有变量的分布。如果这很明显,我相信我的回答对你毫无用处,对不起。
看,分布允许我们以概率方式考虑模型,这意味着我们可以量化模型的不确定性。当在 stat 101 中我们了解到样本的抽样分布均值(渐近地),我们可以在概率框架中告诉关于这个估计的很多东西,比如检验假设,构建置信区间。
在线性模型框架中,如果我们知道误差项的分布,我们基本上可以这样做。为什么?这是随机变量线性组合的结果(见这个答案)。但关键是,当模型中存在这种概率结构时,我们可以再次做一些事情。最值得注意的是,除了假设检验和构建 CI,我们还可以使用量化的不确定性、模型选择、拟合优度测试和一堆其他东西来构建预测。
现在为什么我们特别需要 GLM?首先,线性模型的概率框架无法处理不同类型的概率,例如计数或二进制数据。这些类型的数据本质上与常规连续数据不同,这意味着它可能有1.83米的高度,但有4.5个电灯不工作是没有意义的。
因此,GLM 的动机始于处理不同类型的数据,主要是通过使用链接函数或/和巧妙地将预期模型操纵到线性已知“框架”。这些需求和想法与所使用的“框架”如何对错误进行建模直接相关。
有两件事我们应该关心,
如果我们没有 1,请拧 2。但如果我们有 1,我们希望尽可能获得 2。
如果您运行 OLS,那么它在关于误差分布的非常一般的假设下是一致的(您只需要外生性)。但是,GLS 可以更有效。如果你有一个小样本,这特别好。