假设您有一个包含一整套变量的回归,并且您知道残差不是正态分布的。因此,您只需使用 OLS 估计回归即可找到最佳线性拟合。为此,您否认正态分布误差项的假设。估计后,您有 2 个“重要”系数。但是谁能解释这些系数呢?所以没有办法说:“这些系数是显着的”,尽管假设可以用高 t 统计量来拒绝(因为拒绝正常误差假设)。但是在这种情况下该怎么办?你会怎么争论?
在不假设误差项的正态分布时解释 t 值
机器算法验证
回归
线性模型
2022-04-13 20:53:01
2个回答
如果残差不正常(并注意这适用于理论残差而不是观察到的残差),但没有过度偏斜或带有异常值,则应用中心极限定理并推断斜率(t 检验、置信区间)将大致正确。近似的质量取决于样本大小以及残差中非正态性的程度和类型。
CLT 适用于斜率推断,但不适用于新数据的预测区间。
如果您对 CLT 论点不满意(样本量小、偏度、只是不确定、想要第二意见、想要说服怀疑者等),那么您可以使用不依赖于正态假设的引导或排列方法。
如果误差不是正态分布的,则可以使用渐近结果。假设你的模型是
在哪里,是一个独立同分布的样本。认为
和
在哪里是系数的数量。然后通常的OLS估计是渐近正态的:
这个结果的实际含义是通常的 t 统计量变成了 z 统计量,即它们的分布是正态分布而不是学生分布。因此,您可以像往常一样解释 t 统计量,只应针对正态分布调整 p 值。
请注意,由于此结果是渐近的,因此不适用于小样本量。使用的假设也可以放宽。
其它你可能感兴趣的问题