我发现简单的数据分析练习通常可以帮助说明和阐明统计概念。您使用哪些数据分析练习来教授统计概念?
通过数据分析练习学习统计概念
机器算法验证
教学
2022-02-05 17:47:24
2个回答
由于我必须经常解释变量选择方法,而不是在教学环境中,而是对于请求研究帮助的非统计学家,我喜欢这个极其简单的例子,它说明了为什么单变量选择不一定是一个好主意。
如果你有这个数据集:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
很快就会意识到 X1 和 X2 单独对 y 来说是完全无信息的(当它们相同时,y '确定'为 1 - 我在这里忽略样本量问题,只需假设这四个观察结果成为整个宇宙)。然而,这两个变量的组合是完全有用的。因此,人们更容易理解为什么(例如)仅检查将每个单独变量作为回归量的模型的 p 值不是一个好主意。
根据我的经验,这确实可以传达信息。
多重回归系数和预期符号谬误
我最喜欢通过数据分析练习来说明统计概念的例子之一是将多元回归解构为多元二元回归。
目标
- 在存在多个预测变量的情况下阐明回归系数的含义。
- 为了说明为什么当预测变量相关时,基于其与 Y 的双变量关系“预期”多元回归系数具有特定符号是不正确的。
概念
多元回归模型中的回归系数表示 a) 给定预测变量 (x1) 与模型中所有其他预测变量 (x2...xN) 不相关的部分之间的关系;2) 与模型中所有其他预测变量 (x2...xN) 无关的响应变量 (Y) 部分。当预测变量之间存在相关性时,与预测变量系数相关的符号表示这些残差之间的关系。
锻炼
- 为两个预测变量 (x1, x2) 和一个响应 (y) 生成一些随机数据。
- 在 x2 上回归 y 并存储残差。
- 在 x2 上回归 x1 并存储残差。
- 将步骤 2 (r1) 的残差回归到步骤 3 (r2) 的残差上。
r2 的步骤 4 的系数将是具有 x1 和 x2 的多元回归模型的 x1 的系数。您可以通过为 y 和 x2 分出 x1 来对 x2 执行相同的操作。
这是此练习的一些 R 代码。
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
以下是相关的输出和结果。
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***