我正在尝试查看变量 x 和 y 是否一起或单独显着影响 Q_7(上面的直方图)。我已经运行了 Shapiro-Wilk 正态性检验并得到以下结果
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
有了这个分布,下面的回归会起作用吗?还是我应该做另一项测试?
lm(Q_7 ~ x*y)
我正在尝试查看变量 x 和 y 是否一起或单独显着影响 Q_7(上面的直方图)。我已经运行了 Shapiro-Wilk 正态性检验并得到以下结果
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
有了这个分布,下面的回归会起作用吗?还是我应该做另一项测试?
lm(Q_7 ~ x*y)
回归分析假设数据是正态分布的,条件是回归模型中的变量。也就是说,如果这是回归模型:
你在这里测试的是分布, 你要测试的是分布. 你当然不知道,但您可以通过运行回归并检查残差的分布来估计它(在哪里是回归的估计系数)。这些残差是一个估计,因此它们的分布将是.
简短的回答是肯定的。
首先(正如 Ruben van Bergen 所指出的),(或者,就此而言)不相关。如果您要做出分配假设,那将取决于您的残差, 所以这是你应该检查的。
但更重要的是,您根本不需要正态性假设来进行估计。您正在使用 R 的lm
函数,它使用普通最小二乘法 (OLS)估计您的模型。该方法将为您提供对期望值的正确估计有条件的只要:
如果您进一步假设残差不相关并且它们都具有相同的方差,则适用高斯-马尔可夫定理并且 OLS 是最佳线性无偏估计量 (BLUE)。
如果您的残差是相关的或具有不同的方差,那么 OLS 仍然有效,但它可能不太精确,这必须反映在您报告估计的置信区间的方式中(例如使用稳健的标准误差)。
如果您还假设残差是正态分布的,则 OLS 会变得渐近有效,因为它等效于最大似然。
因此,如果您的数据呈正态分布,回归可能会更好,但如果不是,它仍然可以工作。