问题“你想预测什么?” 和“这里的结果或结果是什么?” 经常有相同的答案,但并非总是如此。
自变量的术语在统计科学中被广泛认为是超载的。许多作家和研究人员 - 至少在过去几十年里 - 都建议使用其他术语,尽管在最佳术语是什么方面几乎没有共识。一些术语是预测变量、解释变量、控制变量、回归变量、协变量、输入......
类似地,因变量一词通常用更令人回味的东西代替。一段时间以来,响应似乎引领了替代品领域,但结果和产出一直是最近经常出现的术语。我没有热情地注意到regressand的存在。
DV 和 IV 在某些领域是常见的缩写,有时似乎是在回归仪式中标记由相互同意而参与的新人。对 DV 的反对意见是Deo volente仍然是许多人的标准扩展。对 IV 更大的反对意见是它是为工具变量定制的(尤其是许多经济学家)。
尽管如此,旧术语仍然存在,我的印象(这里没有名字)是它们仍然经常在教科书中被推荐,在其他方面我认为它们很差或无能。
撇开术语不谈:回归中所谓的自变量在统计上相互独立并没有绝对的暗示,事实上,这一事实是对该术语的几个反对意见之一。
甚至在某些情况下,故意引入彼此高度相关的预测变量。拟合二次方X和X2就是一个很好的例子,如X和X2不是相互独立的。然而,将两个具有基本相同信息的预测变量包括在内是愚蠢的,例如华氏温度和摄氏温度。在实践中,好的软件有陷阱来检测这种情况并根据需要丢弃预测变量,但研究人员仍然需要谨慎和深思熟虑地选择预测变量。理想的——作为原则更容易建议而不是在实践中确保——是让预测器有一个明确的理由,并且不使用超过目的所需的预测器,并且考虑到数据集的大小,这是合理的。
你的例子很有启发性。通常工资取决于年龄,有时直接取决于个人的工资等级,但更常见的是间接地通过受晋升或换工作以及受更丰富的经验、专业知识、声誉等影响的人的工资影响。相反,有时老年人对雇用的吸引力较小(例如,运动员已经过了巅峰期)。但关键是加薪不会影响年龄,而年龄的变化可能会影响工资(平均而言,这是我们在这里关心的)。因果路径可以以间接方式存在。
综上所述,在不同的问题中,年龄是未知的,目标是预测它。这是考古学、法医学以及一些地球和环境科学的标准。