我是一名经济学专业的学生,在计量经济学和 R 方面有一定的经验。我想知道是否存在我们应该在回归中包含变量的情况,尽管它在统计上不显着?
什么时候应该在回归中包含一个变量,尽管它在统计上不显着?
是的!
一个系数在统计上与零无法区分并不意味着该系数实际上为零,该系数是不相关的。一个效应没有通过某个统计显着性的任意截止值并不意味着人们不应该尝试控制它。
一般而言,手头的问题和您的研究设计应该指导包含哪些作为回归变量。
一些简单的例子:
并且不要将其视为详尽的清单。想出更多吨并不难...
1.固定效果
这种情况经常发生的情况是具有固定效应的回归。
假设您有面板数据并想要估计在模型中:
用普通最小二乘法估计这个模型,其中被视为固定效应相当于运行普通最小二乘法,每个人都有一个指示变量.
无论如何,重点是变量(即指标变量的系数)的估计通常很差。任何单独的固定效应往往在统计上不显着。但是,如果您考虑固定效应,您仍然在回归中包含所有指标变量。
(进一步注意,当您使用内置方法时,大多数统计数据包甚至不会为您提供单个固定效果的标准误差。您并不真正关心单个固定效果的重要性。您可能确实关心它们的集体意义.)
2. 功能齐头并进...
(a) 多项式曲线拟合(在评论中提示@NickCox)
如果你正在安装一个某个曲线的次多项式,您几乎总是包含低阶多项式项。
例如,如果您要拟合二阶多项式,您将运行:
通常强迫是很奇怪的而是运行
但牛顿力学的学生将能够想象例外情况。
(b) AR(p) 模型:
假设您正在估计一个 AR(p) 模型,您还将包括低阶项。例如,对于 AR(2),您将运行:
运行起来会很奇怪:
(c) 三角函数
正如@NickCox 提到的,和术语同样倾向于一起出现。有关这方面的更多信息,请参见例如本文。
更广泛地...
当有充分的理论理由时,您希望包含右侧变量。
正如此处和 StackExchange 中的其他答案所讨论的那样,逐步变量选择会产生许多统计问题。
区分以下内容也很重要:
- 一个在统计上与零无法区分的系数,标准误差很小。
- 一个在统计上与零无法区分的系数,具有很大的标准误差。
在后一种情况下,争论系数无关紧要是有问题的。它可能只是测量不佳。
是的,有。任何可能以有意义的方式与您的响应变量相关的变量,即使在统计上不显着的水平,如果不包括在内,都可能混淆您的回归。这被称为规格不足,并导致参数估计不如其他情况准确。
https://onlinecourses.science.psu.edu/stat501/node/328
从以上:
如果回归方程缺少一个或多个重要的预测变量,则回归模型未指定(结果 2)。这种情况可能是最坏的情况,因为未指定的模型会产生有偏差的回归系数和有偏差的响应预测。也就是说,在使用该模型时,我们会始终低估或高估总体斜率和总体均值。更糟糕的是,均方误差 MSE 往往会高估 σ²,从而产生比应有的更宽的置信区间。
通常,您不会因为它们的重要性而包含或排除线性回归的变量。您包括它们是因为您假设所选变量是回归标准的(良好)预测因子。换句话说,预测变量的选择是基于理论的。
线性回归中的统计不显着性可能意味着两件事(我知道):
- 无关紧要的预测变量与标准无关。排除它们,但请记住,无关紧要并不能证明它们不相关。检查你的理论。
- 预测变量无关紧要,因为它们可以表示为其他预测变量的函数。然后,这组预测变量称为多重共线性。这不会使预测变量在任何意义上都“坏”,而是多余的。
排除无关紧要的预测变量的一个正当理由是,您正在寻找能够解释标准方差或其中大部分的预测变量的最小子集。如果你找到了,请检查你的理论。
在计量经济学中,这种情况左右发生。例如,如果您使用季度季节性虚拟变量 Q2、Q3 和 Q4,通常情况下它们作为一个组是显着的,但其中一些单独不显着。在这种情况下,您通常会保留它们。
另一个典型案例是交互。考虑一个模型, 主效应不显着,但相互作用是。在这种情况下,通常会保留主效应。您不应该放弃它的原因有很多,其中一些在论坛中进行了讨论。
更新:另一个常见的例子是预测。经济学系通常从推理的角度教授计量经济学。从推理的角度来看,很多注意力都集中在 p 值和重要性上,因为你试图理解是什么导致了什么等等。在预测中,并没有过多强调这些东西,因为您只关心模型对感兴趣变量的预测能力。
这类似于机器学习应用程序,顺便说一句,它们最近正在进入经济学领域。您可以拥有一个包含所有无法很好预测的重要变量的模型。在 ML 中,它通常与所谓的“过度拟合”相关联。显然,在预测中很少使用这种模型。