一个简单的例子可以帮助我们确定什么是必要的。
设
Y=C+γX1+ε
其中和是参数,是第一个仪器(或自变量)上的得分,而表示无偏 iid 误差。让第二个乐器上的乐谱与第一个乐器相关联CγX1ε
X1=αX2+β.
例如,第二个乐器的分数可能在 25 到 75 之间,第一个乐器的分数可能在 0 到 100 之间,其中。的方差是倍。不过,我们可以重写X1=2X2−50X1α2X2
Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C′+γ′X2+ε.
参数发生变化,自变量的方差发生变化,但模型的预测能力保持不变。
和之间的关系可能是非线性的。哪个是的更好预测因子将取决于哪个与 Y 具有更密切的线性。因此,问题不是规模问题的方差所反映),而是必须由工具之间的关系以及它们用于预测的内容来决定。这个想法与最近一个关于在回归中选择自变量的问题中探讨的想法密切相关。X1X2YYXi
可能有缓解因素。例如,如果和是离散变量,并且两者都与具有同样良好的相关性,则具有较大方差的变量可能(如果它足够均匀地分布)允许其值之间进行更精细的区分,从而提供更高的精度。 例如,如果这两种工具都是李克特量表 1-5 的问卷,两者都与具有同等程度的相关性,并且的答案都是 2 和 3,并且的答案分布在 1 到 5 之间,则可能更受青睐这个基础。X1X2YYX1X2X2