机器算法验证 - 在回归分析中，为什么我们称自变量为“独立的”？ - 吾爱随笔录

在回归分析中，为什么我们称自变量为“独立的”？

机器算法验证回归术语预测器

2022-01-19 01:35:49

我的意思是其中一些变量之间存在很强的相关性。我们如何/为什么/在什么情况下将它们定义为自变量？

4个回答

如果我们从今天对机器学习的强调中回想一下，有多少统计分析是为受控实验研究而开发的，那么“自变量”这个短语就很有意义。

在受控实验研究中，药物的选择及其浓度，或肥料的选择及其每英亩的数量，由研究者独立做出。感兴趣的是感兴趣的响应变量（例如，血压、作物产量）如何依赖于这些实验操作。理想情况下，自变量的特征是严格指定的，在知道它们的值时基本上没有错误。然后，例如，标准线性回归根据自变量值加上残差对因变量值之间的差异进行建模。

在受控实验研究的背景下用于回归的相同数学形式也可以应用于观察数据集的分析，几乎没有实验操作，因此“自变量”这个短语已经延续到这种类型的学习。但是，正如本页上的其他人所指出的那样，这可能是一个不幸的选择，在这种情况下，“预测变量”或“特征”更合适。

在许多方面，“自变量”是一个不幸的选择。变量不必相互独立，当然也不必独立于因变量。在教学和我的《回归建模策略》一书中，我使用了预测器这个词。在某些情况下，这个词不够强，但平均而言效果很好。（右手边）变量的作用的完整描述可能太长而无法每次使用：的分布所依据的变量或测量值集。这是我们目前对其分布不感兴趣但我们将其值视为常数的变量集的另一种说法。 $Y$ $X$ $Y$

我同意这里的其他答案，即“独立”和“依赖”是不好的术语。正如EdM解释的那样，这个术语出现在受控实验的背景下，研究人员可以相互独立地设置回归量。有许多更可取的术语没有这种加载的因果内涵，根据我的经验，统计学家往往更喜欢更中性的术语。这里还使用了许多其他术语，包括：

\begin{matrix} Y_{i} & x_{i, 1}, . . ., x_{i, m} \\ Response & Predictors \\ Regressand & Regressors \\ Output variable & Input variables \\ Predicted variable & Explanatory variables \end{matrix}

$\begin{matrix} Y_i & & & x_{i,1},...,x_{i,m} \\ \hline \text{Response} & & & \text{Predictors} \\ \text{Regressand} & & & \text{Regressors} \\ \text{Output variable} & & & \text{Input variables} \\ \text{Predicted variable} & & & \text{Explanatory variables} \\ \end{matrix}$

就个人而言，我使用术语解释变量和响应变量，因为这些术语没有统计独立性或控制等的含义。（有人可能会说“响应”具有因果含义，但这是一个相当弱的含义，所以我没发现有问题。）

添加到 Frank Harrell 和 Peter Flom 的答案：

我同意将变量称为“独立”或“依赖”通常会产生误导。但有些人仍然这样做。我曾经听到一个答案为什么：

在回归分析中，我们有一个“特殊”变量（通常用表示）和许多“不那么特殊”变量（），我们想看看的变化如何影响。换句话说，我们想看看是如何依赖于的。 $Y$ $X$ $X$ $Y$ $Y$ $X$

这就是为什么被称为“依赖”。如果一个被称为“依赖”，你会如何称呼另一个？ $Y$

其它你可能感兴趣的问题

上一篇二项式置信区间估计 - 为什么它不是对称的？下一篇负二项分布与二项分布