机器算法验证 - 在不假设误差项的正态分布时解释 t 值 - 吾爱随笔录

在不假设误差项的正态分布时解释 t 值

机器算法验证回归线性模型

2022-04-13 20:53:01

假设您有一个包含一整套变量的回归，并且您知道残差不是正态分布的。因此，您只需使用 OLS 估计回归即可找到最佳线性拟合。为此，您否认正态分布误差项的假设。估计后，您有 2 个“重要”系数。但是谁能解释这些系数呢？所以没有办法说：“这些系数是显着的”，尽管假设 $\beta=0$ 可以用高 t 统计量来拒绝（因为拒绝正常误差假设）。但是在这种情况下该怎么办？你会怎么争论？

2个回答

如果残差不正常（并注意这适用于理论残差而不是观察到的残差），但没有过度偏斜或带有异常值，则应用中心极限定理并推断斜率（t 检验、置信区间）将大致正确。近似的质量取决于样本大小以及残差中非正态性的程度和类型。

CLT 适用于斜率推断，但不适用于新数据的预测区间。

如果您对 CLT 论点不满意（样本量小、偏度、只是不确定、想要第二意见、想要说服怀疑者等），那么您可以使用不依赖于正态假设的引导或排列方法。

如果误差不是正态分布的，则可以使用渐近结果。假设你的模型是

y_{i} = x_{i}^{'} β + ε_{i}

$y_i=x_i'\beta+\varepsilon_i$

在哪里 $(y_i,x_i',\varepsilon_i)$ , $i=1,...,n$ 是一个独立同分布的样本。认为

\begin{aligned} E (ε_{i} | x_{i}) & = 0 \\ E (ε_{i}^{2} | x_{i}) & = σ^{2} \end{aligned}

$\begin{align*} E(\varepsilon_i|x_i)&=0 \\ E(\varepsilon_i^2|x_i)&=\sigma^2 \end{align*}$

和

r a n k (E x_{i} x_{i}^{'}) = K,

$rank(Ex_ix_i')=K,$

在哪里 $K$ 是系数的数量。然后通常的OLS估计 $\hat\beta$ 是渐近正态的：

\sqrt{n} (\hat{β} - β) \to N (0, σ^{2} E (x_{i} x_{i}^{'}))

$\sqrt{n}(\hat\beta-\beta)\to N(0,\sigma^2E(x_ix_i'))$

这个结果的实际含义是通常的 t 统计量变成了 z 统计量，即它们的分布是正态分布而不是学生分布。因此，您可以像往常一样解释 t 统计量，只应针对正态分布调整 p 值。

请注意，由于此结果是渐近的，因此不适用于小样本量。使用的假设也可以放宽。

其它你可能感兴趣的问题

上一篇X-mean算法BIC计算题下一篇如何判断两个变量的“接近度”