什么是协变量?

机器算法验证 描述性统计 术语 预测器
2022-02-11 05:50:44

我对这个术语感到困惑:协变量它是什么?是否只是一些随机变量的观察结果,其中包含可以帮助我们增强对另一个我们尚未观察到的随机变量的预测的信息?为什么会这样命名?

似乎还有另一个:自变量。独立于什么?为什么会这样命名?

3个回答

来自维基百科

根据上下文,自变量有时被称为“预测变量”、回归变量、协变量、“控制变量”、“操纵变量”、“解释变量”、暴露变量(参见可靠性理论)、“风险因素”(参见医学统计)、“特征”(在机器学习和模式识别中)或“输入变量”。在计量经济学中,通常使用术语“控制变量”而不是“协变量”。

回答(部分)您的问题:

  • 假设你正在解决线性回归,你试图找到一个关系y=f(X). 在这种情况下,X是自变量和y是因变量。
  • 通常,X由多个变量组成,这些变量之间可能存在某种关系,即它们“共同变化”——因此称为“协变量”。

让我们举一个具体的例子。假设你想预测一个街区的房子的价格,y使用以下“协变量”,X

  • 宽度,x1
  • 宽度,x2
  • 楼层数,x3
  • 房子的面积,x4
  • 到市中心的距离,x5
  • 到医院的距离,x6

对于线性回归问题,y=f(X)房子的价格取决于所有的协变量,即y取决于X. 是否有任何协变量取决于房价?换句话说,是X依赖于y? 答案是不。因此,X是自变量并且y是因变量。这封装了因果关系。如果自变量发生变化,它的影响就会出现在因变量上。

现在,所有协变量是否相互独立?答案是不!更好的答案是,这取决于!

房屋面积(x4) 取决于宽度 (x1), 宽度 (x2) 和楼层数 (x3),而到市中心的距离(x5) 和医院 (x6) 独立于房屋的面积 (x4)。

希望有帮助!

通常运行线性回归的方式(有多种方法可以要求不同的斜率计算)您将获得一个预测变量对因变量的独特影响。它与其他预测变量对 DV 的共同影响(或我相信的结构方程模型的间接影响)不是斜率的一部分。有时会说斜率是特定预测变量将所有其他 X 设置为零的影响(尽管当某些 X 不能取值为 0 或您有交互时,这显然会崩溃)。

一般来说,协变量是实验参与者的特征。如果您在运行实验之前收集有关特征的数据,您可以使用这些数据来查看您的治疗如何影响不同的群体或人群。或者,您可以使用该数据来控制任何协变量的影响。

协变量可能会影响研究的结果。例如,您正在进行一项实验,以了解玉米植物如何耐受干旱。干旱程度是实际的“处理”,但它不是影响植物表现的唯一因素:大小是影响耐受水平的已知因素,因此您可以将植物大小作为协变量运行。

另一个例子(来自宾夕法尼亚州立大学):假设您正在比较男性和女性的薪水,看看谁挣得更多。您需要控制的一个因素是,人们离开大学的时间越长,收入就越多。在这种情况下,大学毕业年限是一个协变量。

协变量可以是自变量(即直接感兴趣的),也可以是不需要的混杂变量。向模型添加协变量可以提高结果的准确性。

来源:https ://www.statisticshowto.datasciencecentral.com/covariate/