R:方差分析和线性回归

机器算法验证 r 回归 方差分析
2022-03-21 01:40:41

我是统计学的新手,我试图了解方差分析和线性回归之间的区别。我正在使用 R 来探索这一点。我阅读了有关为什么 ANOVA 和回归不同但仍然相同以及如何可视化等的各种文章。我认为我在那里很漂亮,但仍然缺少一点。

我了解 ANOVA 将组内的方差与组间的方差进行比较,以确定所测试的任何组之间是否存在差异。https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA

对于线性回归,我在这个论坛上发现了一个帖子,上面说当我们测试 b(斜率)= 0 时可以进行相同的测试。(与线性回归相比,为什么教授/使用 ANOVA 就好像它是一种不同的研究方法? )

对于两个以上的群体,我发现一个网站说明:

原假设是:H0:µ1=µ2=µ3

线性回归模型为:y=b0+b1X1+b2X2+e

然而,线性回归的输出是一组截距和其他两组截距的差值。http://www.real-statistics.com/multiple-regression/anova-using-regression/

对我来说,这看起来实际上是比较截距而不是斜率?

他们比较截距而不是斜率的另一个例子可以在这里找到:(http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/

我现在很难理解线性回归中实际比较的是什么?斜率、截距或两者兼而有之?

2个回答

这看起来实际上是比较截距而不是斜率?

您的困惑与这样一个事实有关,即您必须非常小心地清楚您的意思是哪些截距和斜率(什么截距?什么斜率?)。

0-1 虚拟变量的系数在回归中的作用可以被认为是斜率截距差。

让我们通过考虑两个样本的情况来尽可能简化事情。

我们仍然可以对两个样本进行单向方差分析,但结果证明它与双尾两样本 t 检验(等方差情况)基本相同。

人口状况图如下:

两组均值作为回归,人口情况

如果,则总体线性模型为δ=μ2μ1

y=μ1+δx+e

所以当时(当我们在第 1 组时),的平均值是并且当时(当我们在第 2 组时) ,的平均值是x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2μ1=μ2

这就是斜率的系数()和均值的差异(您可能会将这些均值视为截距)是相同的数量。δ

为了帮助具体化,这里有两个示例:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

他们看起来怎么样?

样本图

均值差异检验是什么样的?

作为 t 检验:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

作为回归:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

我们可以在回归中看到,截距项是组 1 的均值,groupg2 系数(“斜率”系数)是组均值的差异。同时回归的 p 值与 t 检验的 p 值相同 (0.003976)

ANOVA 是具有分类回归量的特定回归模型。它仅对不同组的均值进行建模,即截距。没有斜率参数。

回归是一种估计参数的通用方法。您是否更喜欢构建可以捕获斜率的回归模型,或者您是否对组均值感到满意,这取决于您。

ANOVA 使用相同的方法来估计参数,并在回归之上建立一些统计方法来专门测试组中的差异是否意味着。

您使用类别作为分组变量构建相同的 ANOVA 模型

y ~ (1|G)