机器算法验证 - 为什么我们说结果变量“回归”预测变量？ - 吾爱随笔录

为什么我们说结果变量“回归”预测变量？

机器算法验证回归术语教学

2022-02-02 13:48:38

这个术语有一些直观的解释吗？为什么会这样，而不是预测变量对结果的回归？

理想情况下，我希望对为什么存在这个术语的正确解释能帮助学生记住它，并阻止他们说错话。

4个回答

我不知道“回归”的词源是什么，但这是我在说或听到这个表达时想到的解释。请考虑Hastie 等人的《统计学习要素》中的下图：

在其核心，线性回归相当于在 (onto)上的正交投影，其中是因变量的观察的是预测向量跨越的子空间. $\mathbf y$ $\mathbf X$ $\mathbf y$ $n$ $\mathbf X$

这是对线性回归的非常有用的解释。

由于被投影在上，所以当我听到被“回归”时，我就是这么想的。从这个角度来看，说在上回归或在“反对”或“与”上回归是没有意义的。 $y$ $X$ $y$ $X$ $X$ $y$ $y$ $X$

理想情况下，我希望对为什么存在这个术语的正确解释能帮助学生记住它，并阻止他们说错话。

正如我所说，我怀疑这是对为什么这个术语存在的解释（也许只是它为什么持续存在？），但我相信它可以帮助学生记住它。

我经常使用和听到这种说话方式。我猜想在预测变量之前提到结果或响应的序列遵循书面约定，使用单词或使用符号或将两者混合，一直到

$Y = X\beta$

抛开我们称之为不同类型变量的同样有趣（或无趣！）的问题。

但是，首先提及预测变量在数学和统计上似乎同样有效，就像许多数学家首先编写带有参数的映射或函数一样。

推动我们在统计讨论中使用的序列的通常可能是，在科学或实践上，我们通常对我们试图预测的内容有一个清晰的认识——它是死亡率、收入、小麦产量、选举中的选票，或其他任何东西——而潜在或实际预测变量的池可能并不那么清楚。即使很清楚，首先提到重要的事情也是有道理的。你想做什么？预测什么。你打算怎么做？使用部分或全部这些变量。

我没有关于“on”的故事，而不是任何其他合适的词。我没有听到“倒退”或“倒退”。这里可能没有逻辑，只是在教科书、教学和讨论中传递的模因。

一般来说，要小心。考虑一个相关的问题，“对”的含义。我从小说“将 [垂直轴变量] 与（或） [水平轴变量] 对比”，而反过来对我来说听起来很奇怪。然而，拥有丰富经验和专业知识的人却反其道而行之。有时，这种差异可能源于你从坐在他们脚下开始就一直模仿的有魅力和特殊的老师。 $y$ $x$

1)术语回归来自于在通常的简单线性回归模型中：

$y = \alpha + \beta x + \epsilon$

除非结果和预测变量完全相关，否则拟合值比预测变量更接近结果的平均值（标准化后） , , 是它的平均值，（标准化后）。因此，结果显示出向均值回归。 $y$ $x$ $\hat{y}$ $\bar{y}$ $x$ $\bar{x}$

$|\hat{y} - \bar{y}| / s_y < |x - \bar{x}| / s_x$

例如，如果我们使用 R 内置的 BOD 数据框，那么：

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

一个证明见：https ://en.wikipedia.org/wiki/Regression_toward_the_mean

2)术语on来自这样一个事实，即拟合值是结果变量在预测变量（包括截距）所跨越的子空间上的投影，如http://people.eecs.ku等许多来源中进一步解释的那样.edu/~jhuan/EECS940_S12/slides/linearRegression.pdf。

笔记

关于下面的评论，评论者所说的是上面已经以公式形式陈述的答案，除了答案正确地陈述了它。事实上，由于相等性：

$(\hat{y} - \bar{y}) = \hat{\beta} (x - \bar{x})$

因变量的平均值不一定比预测变量的平均值更接近，除非。正确的是，因变量与其平均值的平均标准差比预测变量与其平均值的标准差少，如答案中的公式所述。 $| \beta | < 1$

使用评论所指的高尔顿数据（可在 R 中的 UsingR 包中获得）我们运行回归，实际上斜率为 0.646，因此平均子代更接近其均值而不是其父代接近其均值，但事实并非如此一般情况。

library(UsingR)
fm2 <- lm(child ~ parent, galton)
coef(fm2)[[2]] # slope
## [1] 0.646

上面 (1) 中的BOD示例是因变量不接近其均值的示例，除非在斜率 > 1 时测量标准差的接近度。

coef(fm)[[2]] # slope
## [1] 1.7214 

with(BOD, all( abs(fitted(fm) - mean(demand)) < abs(Time - mean(Time))))
## [1] FALSE

由于目标预测结果 y 取决于预测变量 x，您可以说“回归”意味着“依赖于”。

使用“regressed”这个词而不是“dependent”，因为我们想强调我们正在使用回归技术来表示 x 和 y 之间的这种依赖关系。

因此，这句话“y is regressed on x”是以下的简写形式：
每个预测的 y 都应通过回归技术“依赖于”x 的值。

其它你可能感兴趣的问题

上一篇所有机器学习算法都线性分离数据吗？下一篇使用 QQ 图而不是直方图的好处