带有序数因变量的 OLS - 系数有什么意义吗?

机器算法验证 回归 分类数据 解释 序数数据 标准化
2022-03-21 05:24:12

我目前读到一篇论文,其中作者向人们提出了 3 个关于生活满意度的不同问题,所有这些问题都将按四分制进行评分:1)非常低,2)低,3)高,4)非常高. 然后,作者对每个人的三个问题的答案取平均值,然后将此个人平均值用作具有二元和连续解释变量的 OLS 回归中的因变量。

从解释的角度来看,这对我来说没有意义。考虑到因变量的性质,在这种情况下,告诉我什么?β=0.12

所以这是我的其他问题:

  1. 对于这些结果变量,OLS 甚至是无偏且一致的吗?
  2. 是否可以先将答案标准化到单位区间,然后取平均值,形成生活满意度的衡量标准?

对于第二个问题,我认为将个体标准化为 然后取其平均值,这样 可以用作因变量。鉴于这种生活满意度的衡量标准在 0 和 1 之间,这应该会提供更多可解释的 OLS 参数,对吧?ji

X~i=XijXminXmaxXmin
X~¯i=1Ni=1NX~i

提前致谢。

2个回答

尽管 OLS 估计量存在解释问题,但这里的真正问题在于将序数变量视为比率尺度上的变量。通过使用标准线性回归分析,研究人员基本上将序数响应视为一个连续量。通过平均三个评级,他们还隐含地将这些生活满意度测量视为连续聚合测量中相同权重的连续测量。这涉及到许多关于评级量表性质的潜在可疑假设,因此您可以合理地怀疑该衡量标准的合法性。至少,这样的处理掩盖了大量关于解释变量对个体响应测量中的序数类别的具体影响的信息。

在任何情况下,如果我们让表示这种情况下的响应变量(即生活满意度的三个评分的平均值),那么我们有一个如下形式的模型:Y¯

Y¯i=u(β,xi)+εi,

其中真正的回归函数具有线性形式:

u(β,xi)=β0+β1xi,1++βKxi,k.

像往常一样,每个斜率系数 ( ) 是条件预期响应相对于相应解释变量的变化率:βkk=1,...,K

βk=uxi,k(β,xi).

如您所见,回归中的系数值着眼于平均生活满意度评级的条件期望值的变化率,您可能认为或可能不认为这是一个可疑的衡量标准。所有个人生活满意度评级都是有序整数值这一事实意味着平均值仅限于支持,因此期望值是这些可能值的凸组合。{1,43,53,,113,4}


关于您的后续问题:(1)对于模型中的真实系数值, OLS 估计量是无偏且一致的(在解释变量的广泛限制条件下,在这种情况下,这可能具有可疑的意义; (2) 响应值的标准化将仅通过线性变换对其进行变换,这将通过相应的线性变换改变所有斜率系数;它不会从根本上改变来自模型的信息。

Q1:OLS 是一致的,不受标准理论的影响。对此有一些假设,但是对于您在这里拥有的结果变量,这些似乎并不比线性回归的“标准”应用更成问题。这些假设尤其没有说明如何获得定量结果变量(并且不需要它是正态分布的)。

Q2:据我所知,您在这里提出的只是结果变量的线性变换。由于它的仿射等方差(*),使用它的线性回归在技术上等同于使用原始数据,如果我没看错的话,它会在 1 到 4 之间缩放(我假设你使用 ; 如果使用数据中达到的最小值和最大值,等价可能不成立,通常可能不是 1 和 4)。回归系数一如既往地告诉您,如果解释变量的值更改为 1,则响应变量的(估计)预期变化。我看不出这是否必须在 - 刻度或Xmin=1, Xmax=4[1,4][0,1]-scale,但如果你觉得后者更舒服,没有人会阻止你使用它。如前所述,从技术上讲,它是等效的(例如,尺度上的应更改为尺度上的)。β^=0.12[1,4]0.12/3=0.04[0,1]

(*) 仿射等方差粗略的意思是,如果对数据进行线性变换,估计的回归参数会以这种变换所隐含的适当方式发生变化,从而使它们在变换后具有相同的含义。

附录:在多大程度上以这种方式使用序数响应,就好像它们是有意义的定量数字一样,这是一个有争议的问题,可能值得思考,但没有普遍接受的正确答案。无论如何,它对您的问题没有影响(除了知道有关如何获得测量的背景知识通常对于评估模型假设(例如独立性和结果的解释意义)很有价值,但这并不特定于这些数据)。