当线性自变量不显着时,我可以证明曲线关系吗

机器算法验证 回归
2022-04-05 05:23:30

我正在使用分层回归分析来研究 X 和 Y 之间的曲线效应。为了测试曲线效应,计算了 X 的平方项(我的意思是中心也是变量 X)。

在模型 1 中,输入了控制变量。在模型 2 中,输入了 X(线性)。在模型 3 中,输入了 X(二次)。

在模型 2 中,X 线性是显着的。在模型 3 中输入平方项时,二次项显着,但线性项不显着。这是否证明了曲线效应?还是在模型 3 中(线性和二次)都重要?

当我不是指使自变量居中时,模型 3 表示 X 线性和 X 二次显着。这里的问题是多重共线性问题。

4个回答

不,线性项和二次项都不重要。只有二​​次项需要显着。

事实上,重要的是要注意,在还包括二次项的模型的上下文中,线性项的解释有些不同。在这样的模型中,线性项现在表示在 y 截距处与 x 相切的线的斜率,即当且仅当 x = 0 时 x的预测斜率。因此,在这样的模型中对线性项的测试通常与在仅包含线性项而没有二次项的模型中测试相同的东西。

想想意义是什么意思。您建议的形式的关系可以表征为 并且经验估计为Y=a1X2+a2X+bY^=α1X^2+α2X^+β+ϵ

估计的意义——比如说,是什么意思?显着性是 Pr(data|H0),给定一个“不显着”的概率,你真正不拒绝的是系数可能真的为零的可能性。α2

这是否使曲线关系的假设无效?在我看来不是。相反,它似乎表明实际上为零。a2

考虑以下示例(用 Stata 编写)。

首先我们生成一些数据:

set obs 20000
gen x = uniform()
gen control_one = uniform()
gen control_two = uniform()
drawnorm e, m(0) sd(0.5)

然后我们指定一个新变量 X = x^2 和一个结果变量 Y 的关系

gen Y = control_one+control_two+X+e

(这对应于 x 中的多维曲线模型,其中线性和常数项的系数为零)。

然后我们运行一些回归:

reg Y control_one control_two
reg Y control_one control_two x
reg Y control_one control_two X x

x 项在第二个模型中很重要,但在第三个模型中不重要。据我了解,这反映了您对真实数据的体验。

实际上,这两个术语是否重要并不重要,但是您永远无法仅用模型来证明任何事情。

给定的系数估计值是估计值,它们提供了证据。二次项上的大系数提供了很多证据,小系数提供了曲线关系的少量证据。线性项无关紧要。它可以是正数、负数、接近 0 或其他值。

数据图也将提供曲线关系的证据。

统计显着性意味着一个非常精确的东西:如果在抽取这个样本的总体中,效果确实为 0,那么在可用大小的样本中,是否有 5% 的可能性是这样的检验统计量或离0更远。

如前所述,曲线项的重要性独立存在,而与回归中线性项的重要性无关。如果线性项接近零,则曲线为 U 形或倒 U 形(如果显着)。如果这两个项都很重要,则生成的线更像是具有加速(或减速)坡度的山丘。