具有更大方差的预测器“更好”吗?

机器算法验证 回归 物流
2022-03-19 03:39:49

我有一个“基本统计”概念问题。作为一名学生,我想知道我是否完全错误地考虑了这一点,如果是这样,为什么:

假设我在逻辑回归中试图研究“愤怒管理问题”和离婚(是/否)之间的关系,我可以选择使用两种不同的愤怒管理分数——满分 100。
得分 1来自问卷评分工具1和我的另一个选择;分数 2 来自不同的问卷。假设地,我们有理由从以前的工作中相信愤怒管理问题会导致离婚。
如果在我的 500 人样本中,得分 1 的方差远高于得分 2,那么是否有理由相信得分 1 会更好地用作基于方差的离婚预测指标?

对我来说,这本能地似乎是对的,但真的是这样吗?

3个回答

几个要点:

  • 通过为变量采用不同的尺度,可以任意增加或减少方差。将尺度乘以大于 1 的常数会增加方差,但不会改变变量的预测能力。
  • 您可能会将方差与可靠性混淆。在其他条件相同的情况下(并假设至少有一些真实的分数预测),提高测量结构的可靠性应该会提高其预测能力。查看衰减校正的讨论。
  • 假设两个量表都由 20 个 5 分项目组成,因此总分在 20 到 100 之间,那么方差更大的版本也会更可靠(至少在内部一致性方面)。
  • 内部一致性信度不是判断心理测试的唯一标准,也不是区分给定结构的一个量表与另一个量表的预测能力的唯一因素。

一个简单的例子可以帮助我们确定什么是必要的。

Y=C+γX1+ε

其中是参数,是第一个仪器(或自变量)上的得分,而表示无偏 iid 误差。让第二个乐器上的乐谱与第一个乐器相关联CγX1ε

X1=αX2+β.

例如,第二个乐器的分数可能在 25 到 75 之间,第一个乐器的分数可能在 0 到 100 之间,其中的方差不过,我们可以重写X1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

参数发生变化,自变量的方差发生变化,但模型的预测能力保持不变

之间的关系可能是非线性的。哪个是的更好预测因子将取决于哪个与 Y 具有更密切的线性因此,问题不是规模问题的方差所反映),而是必须由工具之间的关系以及它们用于预测的内容来决定。这个想法与最近一个关于在回归中选择自变量的问题中探讨的想法密切相关。X1X2YYXi

可能有缓解因素。例如,如果是离散变量,并且两者都与具有同样良好的相关性,则具有较大方差的变量可能(如果它足够均匀地分布)允许其值之间进行更精细的区分,从而提供更高的精度。 例如,如果这两种工具都是李克特量表 1-5 的问卷,两者都与具有同等程度的相关性,并且的答案都是 2 和 3,并且的答案分布在 1 到 5 之间,则可能更受青睐这个基础。X1X2YYX1X2X2

始终检查您正在使用的统计测试的假设!

逻辑回归的假设之一是错误的独立性,这意味着数据的案例不应该相关。例如。你不能在不同的时间点测量同一个人,我担心你可能已经用你的愤怒管理调查做过。

我还会担心,通过 2 次愤怒管理调查,您基本上测量的是同一件事,您的分析可能会受到多重共线性的影响。