机器算法验证 - 当因变量不是正态分布时，OLS 估计量遵循什么分布？ - 吾爱随笔录

当因变量不是正态分布时，OLS 估计量遵循什么分布？

机器算法验证回归估计最小二乘

2022-03-19 06:30:57

我明白当 $Y$ 是正态分布的，则 OLS 产生与最大似然相同的估计量，这意味着估计量是足够的，并且在大样本中将近似正态分布。

然而，当 OLS 估计器遵循什么分布时 $Y$ 不正常吗？

就我而言，我在 Python 和 R 中看到的所有回归结果表都返回 $t$ 每个估计系数的统计量。这是否意味着估计者总是遵循 $t$ 分配？如果是这样，有多少自由度 $t$ 分布有？

1个回答

我将假设您指的是条件分布 $Y$ 在回归中（即，给定解释变量），它直接来自潜在的误差分布。所以你真的在问当潜在的错误项不是正态分布时会发生什么。

OLS 估计量的分布对于模型中误差项的非正态性非常稳健，只要您拥有合理数量的数据，并且在解释变量中具有非病理行为。要看到这一点，请注意 OLS 估计量可以根据模型中的误差项写成：

\begin{aligned} \hat{β} & = (x^{T} x)^{- 1} x^{T} Y \\ = (x^{T} x)^{- 1} x^{T} (x β + ε) \\ = β + (x^{T} x)^{- 1} x^{T} ε \\ = β + \sum_{i = 1}^{n} ε_{i} w_{i}, \end{aligned}

$\begin{align} \hat{\boldsymbol{\beta}} &= (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} \mathbf{Y} \\[6pt] &= (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} (\mathbf{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}) \\[6pt] &= \boldsymbol{\beta} + (\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T} \boldsymbol{\varepsilon} \\[6pt] &= \boldsymbol{\beta} + \sum_{i=1}^n \varepsilon_i \mathbf{w}_i, \\[6pt] \end{align}$

向量在哪里 $\mathbf{w}_i = [(\mathbf{x}^\text{T} \mathbf{x})^{-1} \mathbf{x}^\text{T}]_{\cdot, i}$ 是完全由下式确定的权重向量 $\mathbf{x}$ . 观察到 OLS 估计量与真实系数向量的偏差是误差项的线性函数。现在，假设误差项独立于某个具有零均值和有限方差的分布 $\sigma^2 < \infty$ ，但这不是正态分布。在广泛的条件下，我们可以诉诸李雅波诺夫中心极限定理(CLT) 的多元版本来确定当 $n$ 很大，我们有：

\sum_{i = 1}^{n} w_{i} ε_{i} \overset{Approx}{\sim} N (0, σ^{2} (x^{T} x)^{- 1}) .

$\sum_{i=1}^n \mathbf{w}_i \varepsilon_i \overset{\text{Approx}}{\sim} \text{N} \Bigg( 0, \sigma^2 (\mathbf{x}^\text{T} \mathbf{x})^{-1} \Bigg).$

因此，对于大 $n$ 你有：

\hat{β} \overset{Approx}{\sim} N (β, σ^{2} (x^{T} x)^{- 1}) .

$\hat{\boldsymbol{\beta}} \overset{\text{Approx}}{\sim} \text{N} \Bigg( \boldsymbol{\beta}, \sigma^2 (\mathbf{x}^\text{T} \mathbf{x})^{-1} \Bigg).$

现在，在这里申请 CLT 所需的具体条件有点复杂。粗略地说，您需要证明满足加权和的 Lyapunov 条件，这需要解释变量的限制条件（例如，参见此处讨论的 Grenander 条件）。然而，在解释变量的非病理行为下，并假设误差项是具有有限方差的独立同分布，这通常足以允许应用 CLT，这意味着 OLS 估计量在以下情况下近似正态分布 $n$ 很大。请注意，即使基础误差分布不正常，此结果也适用。

顺便说一句，这是回归分析中的大多数标准测试对失去正态性假设具有鲁棒性的重要原因之一。所有系数检验和拟合优度检验都可以在不需要误差项呈正态分布的广泛条件下使用 CLT 近似推导出来。误差项的正态性假设对于预测目的很重要，如果您在没有适当审查的情况下应用此假设，您可能会对新的响应变量做出非常糟糕的预测。但是，只要您有合理数量的数据来拟合您的模型，正态性假设对于内部 T 检验和 F 检验以及系数估计量和拟合优度统计的相关分布结果通常并不重要.

其它你可能感兴趣的问题

上一篇如何确定随机数生成器使用均匀分布的可能性？下一篇通过 AIC 进行的自动模型选择是否会影响所选模型的 p 值？[寻找基于模拟的证据]