我的意思是其中一些变量之间存在很强的相关性。我们如何/为什么/在什么情况下将它们定义为自变量?
在回归分析中,为什么我们称自变量为“独立的”?
机器算法验证
回归
术语
预测器
2022-01-19 01:35:49
4个回答
如果我们从今天对机器学习的强调中回想一下,有多少统计分析是为受控实验研究而开发的,那么“自变量”这个短语就很有意义。
在受控实验研究中,药物的选择及其浓度,或肥料的选择及其每英亩的数量,由研究者独立做出。感兴趣的是感兴趣的响应变量(例如,血压、作物产量)如何依赖于这些实验操作。理想情况下,自变量的特征是严格指定的,在知道它们的值时基本上没有错误。然后,例如,标准线性回归根据自变量值加上残差对因变量值之间的差异进行建模。
在受控实验研究的背景下用于回归的相同数学形式也可以应用于观察数据集的分析,几乎没有实验操作,因此“自变量”这个短语已经延续到这种类型的学习。但是,正如本页上的其他人所指出的那样,这可能是一个不幸的选择,在这种情况下,“预测变量”或“特征”更合适。
在许多方面,“自变量”是一个不幸的选择。变量不必相互独立,当然也不必独立于因变量。在教学和我的《回归建模策略》一书中,我使用了预测器这个词。在某些情况下,这个词不够强,但平均而言效果很好。 (右手边)变量的作用的完整描述可能太长而无法每次使用:的分布所依据的变量或测量值集。这是我们目前对其分布不感兴趣但我们将其值视为常数的变量集的另一种说法。
添加到 Frank Harrell 和 Peter Flom 的答案:
我同意将变量称为“独立”或“依赖”通常会产生误导。但有些人仍然这样做。我曾经听到一个答案为什么:
在回归分析中,我们有一个“特殊”变量(通常用表示)和许多“不那么特殊”变量(),我们想看看的变化如何影响。换句话说,我们想看看是如何依赖于的。
这就是为什么被称为“依赖”。如果一个被称为“依赖”,你会如何称呼另一个?
其它你可能感兴趣的问题