在不假设误差项的正态分布时解释 t 值

机器算法验证 回归 线性模型
2022-04-13 20:53:01

假设您有一个包含一整套变量的回归,并且您知道残差不是正态分布的。因此,您只需使用 OLS 估计回归即可找到最佳线性拟合。为此,您否认正态分布误差项的假设。估计后,您有 2 个“重要”系数。但是谁能解释这些系数呢?所以没有办法说:“这些系数是显着的”,尽管假设β=0可以用高 t 统计量来拒绝(因为拒绝正常误差假设)。但是在这种情况下该怎么办?你会怎么争论?

2个回答

如果残差不正常(并注意这适用于理论残差而不是观察到的残差),但没有过度偏斜或带有异常值,则应用中心极限定理并推断斜率(t 检验、置信区间)将大致正确。近似的质量取决于样本大小以及残差中非正态性的程度和类型。

CLT 适用于斜率推断,但不适用于新数据的预测区间。

如果您对 CLT 论点不满意(样本量小、偏度、只是不确定、想要第二意见、想要说服怀疑者等),那么您可以使用不依赖于正态假设的引导或排列方法。

如果误差不是正态分布的,则可以使用渐近结果。假设你的模型是

yi=xiβ+εi

在哪里(yi,xi,εi),i=1,...,n是一个独立同分布的样本。认为

E(εi|xi)=0E(εi2|xi)=σ2

rank(Exixi)=K,

在哪里K是系数的数量。然后通常的OLS估计β^是渐近正态的:

n(β^β)N(0,σ2E(xixi))

这个结果的实际含义是通常的 t 统计量变成了 z 统计量,即它们的分布是正态分布而不是学生分布。因此,您可以像往常一样解释 t 统计量,只应针对正态分布调整 p 值。

请注意,由于此结果是渐近的,因此不适用于小样本量。使用的假设也可以放宽。