误差非正态分布时线性回归中的置信区间解释

数据挖掘 回归 线性回归
2021-10-14 19:44:57

我读过“如果误差分布明显不正常,则置信区间可能太宽或太窄”(来源)。那么,任何人都可以详细说明这一点吗?置信区间何时变窄,何时变宽?跟偏斜有关系吗?

2个回答

如果您可能想尝试另一种方法来查找置信区间,除了 Peter 给出的很好且严谨的回答之外,我还会考虑使用像bootstrapping这样的重采样方法作为查找置信区间的可靠方法。一个关键优势是它不假设任何类型的分布,是一种无需分布的方法来查找您的系数估计值。

在寻找线性回归的置信区间的情况下,步骤将是:

  1. 从数据集中抽取 n 个随机样本(带替换),其中 n 是引导样本大小
  2. 对步骤 1 中的bootstrap样本进行线性回归
  3. 重复第 1 步和第 2步 n_iters 次,其中 n_iters 将是引导样本的数量和对其进行的线性回归
  4. 现在我们有了线性回归系数的 n_iters 值,我们可以通过最小、中值和最大百分位数找到区间限制(例如,对于 95% CI:百分位数 2.5、50 和 97.5)以找到系数估计值和 CI限制

在此处输入图像描述

请注意沿 x 轴值的置信区间的可变性,考虑到系数估计的抽样误差(良好的阅读来源:https ://greenteapress.com/wp/think-stats-2e/ )

我的示例的相关代码包括情节可以在这里找到

OLS 型号:

OLS(又名线性回归)背后假设之一是同方差,即:

一个r(|X)=σ2.

回想一下线性模型的定义:

是的=Xβ+,

在哪里 是统计误差项。误差项(根据 OLS 假设)需要有一个期望值(|X)=0 (正交条件)有方差 σ2, 使得误差分布 (0,σ2).

异方差性:

如果方差为 不是“谐波”并且违反了上述假设,我们说误差项是异方差的。异方差不会(!)改变估计的系数,但它确实会影响(估计的)标准误差,从而影响置信带。

误差方差由下式估计

σ^2=1/(n-2)^2.

标准误(系数 β)估计如下:

se(β^)=σ^/((X一世-X¯)2)1/2.

为了获得误差方差和(“正常”,与“稳健”相反,见下文)标准误差的正确估计,需要假设同方差。反过来,标准误差用于计算置信带。因此,如果您不能相信估计的标准误差,您也不能依赖置信区间。

这里的问题最终是,给定异方差性,您无法判断某个估计系数是否具有统计显着性。此处定义了显着性(95% 置信度),因此某些估计系数的置信带不会“跨越”零(因此严格来说是正数或负数)。

处理异方差性有不同的选择:

  • 最常见的解决方案是使用“稳健”的标准错误有不同版本的“稳健”错误(HC1、HC2、HC3)。它们都有一个共同点,即它们旨在获得对误差方差的“稳健”估计。大多数软件都允许您计算稳健的 SE。在此处查找 R 的示例
  • 另一种选择是估计一个“可行的广义模型”(FGLS),您首先估计方差函数(以了解误差的分布),然后尝试“纠正”误差分布中的问题。但是,这不是您在实践中经常使用的东西。它更像是一种学术练习。

检验异方差性:

通常,您会测试是否存在异方差性。您可以查看“残差与拟合图”以了解误差项的分布方式。

但是,可以使用White 或 Breusch-Pagan 测试进行适当的测试是 R 中的一个示例。