自变量是否一定是“独立的”,这与预测的内容有什么关系?

机器算法验证 推理 预言 术语 独立
2022-03-04 01:52:33

我对统计相当陌生。我不清楚自变量和因变量的含义以及与预测的关系。

在我的文本中,作为示例,有一个数据集包含以下许多实例:

  • 一个人的工资

  • 一个人的年龄

  • 他们挣那薪水的那一年

  • 他们的教育水平

书中提到试图从其他三个变量中预测他们的薪水。这是否意味着其他三个是自变量而薪水是因变量?

当这些数据排列在电子表格中时,行是人,列是变量,就会出现一些有趣的东西。所有变量之间存在对称性。它们都没有在电子表格中占有特殊的位置,它们都有自己的列。

这让我问,我们可以选择另一个,比如年龄,并根据薪水/年/教育进行预测吗?年龄现在是因变量吗?

在高中统计数据中,我了解到自变量具有一定程度的独立性……比如说天气与我晚餐的食物无关。一个对另一个没有太大影响。

但是在统计学中,自变量是否可以被视为“我们用来进行预测的事物”,而因变量是“被预测的事物”?是否仍然需要自变量在现实世界中真正独立?

3个回答

问题“你想预测什么?” 和“这里的结果或结果是什么?” 经常有相同的答案,但并非总是如此。

自变量的术语在统计科学中被广泛认为是超载的。许多作家和研究人员 - 至少在过去几十年里 - 都建议使用其他术语,尽管在最佳术语是什么方面几乎没有共识。一些术语是预测变量解释变量控制变量回归变量、协变量输入......

类似地,因变量一词通常用更令人回味的东西代替。一段时间以来,响应似乎引领了替代品领域,但结果产出一直是最近经常出现的术语。我没有热情地注意到regressand的存在。

DV 和 IV 在某些领域是常见的缩写,有时似乎是在回归仪式中标记由相互同意而参与的新人。对 DV 的反对意见是Deo volente仍然是许多人的标准扩展。对 IV 更大的反对意见是它是为工具变量定制的(尤其是许多经济学家)。

尽管如此,旧术语仍然存在,我的印象(这里没有名字)是它们仍然经常在教科书中被推荐,在其他方面我认为它们很差或无能。

撇开术语不谈:回归中所谓的自变量在统计上相互独立并没有绝对的暗示,事实上,这一事实是对该术语的几个反对意见之一。

甚至在某些情况下,故意引入彼此高度相关的预测变量。拟合二次方XX2就是一个很好的例子,如XX2不是相互独立的。然而,将两个具有基本相同信息的预测变量包括在内是愚蠢的,例如华氏温度和摄氏温度。在实践中,好的软件有陷阱来检测这种情况并根据需要丢弃预测变量,但研究人员仍然需要谨慎和深思熟虑地选择预测变量。理想的——作为原则更容易建议而不是在实践中确保——是让预测器有一个明确的理由,并且不使用超过目的所需的预测器,并且考虑到数据集的大小,这是合理的。

你的例子很有启发性。通常工资取决于年龄,有时直接取决于个人的工资等级,但更常见的是间接地通过受晋升或换工作以及受更丰富的经验、专业知识、声誉等影响的人的工资影响。相反,有时老年人对雇用的吸引力较小(例如,运动员已经过了巅峰期)。但关键是加薪不会影响年龄,而年龄的变化可能会影响工资(平均而言,这是我们在这里关心的)。因果路径可以以间接方式存在。

综上所述,在不同的问题中,年龄是未知的,目标是预测它。这是考古学、法医学以及一些地球和环境科学的标准。

@NickCox 给出了一个很好的答案。几个补充:

你问

但是在统计学中,自变量是否可以被视为“我们用来进行预测的事物”,而因变量是“被预测的事物”?

给出一个明确的答案:是的,这通常是这些术语的使用方式。我自己就是这样使用它们的。

其次,首选术语似乎因领域和个人而异。我的博士学位是心理测量学(在心理学系),“独立”在那里很常见。

第三,尼克列表中其他术语的含义也各不相同。有些人使用“协变量”来表示“所有 X 变量”,而其他人使用协变量来表示您并不真正感兴趣但必须考虑的有害参数。

最后,其他术语也有自己的问题:“预测变量”——有时我们对预测并不真正感兴趣。“解释变量”——同样,我们有时对解释不感兴趣(有时,我们对解释和预测都感兴趣)。“回归量”还不错,但它有点暗示我们正在做某种形式的回归,但是方法中存在不称为“回归”的自变量。

一团糟!

正如您正确注意到的那样,“独立”一词根据上下文具有完全不同的含义。

统计独立性是您在天气和晚餐之间描述的内容。这两个事件是独立的,因为其中一个的值不会影响另一个。这种独立性有更正式的数学定义,但你的基本理解是正确的。

回归中的自变量是一个术语,指的是一组x变量。有时它们也被称为预测变量或协变量。实际上,正如您在示例中提到的,您可以选择年龄作为响应(因变量),而其他三个作为自变量。但是,这是否是一个好主意取决于您所做的实际目的。实际上,您有兴趣根据其他变量预测薪水,因此您选择薪水作为因变量,并将其他变量称为自变量。没有什么可以迫使您事先将其中一个称为因变量 - 这完全取决于您,并且取决于您要回答的问题。