在回归中添加垃圾控制有哪些潜在后果?

机器算法验证 回归 广义线性模型 多重共线性
2022-03-16 08:43:13

假设我正在运行一个回归,其中我的因变量是凶杀,我感兴趣的变量是访问暴力视频游戏。假设我在控制变量方面也投入了厨房水槽——我有 38 个人口统计控制、30 个可能相关或不相关的犯罪学控制,等等。其中一些控件甚至可能包含模糊或错误的数据(印刷错误、空白单元格等)。这些草率的回归有哪些负面后果?

一位统计学专业的研究生告诉我,这些控制对因变量和感兴趣变量之间的 p 值没有影响,即使控制上的系数毫无意义。但如果这是真的,为什么不是所有学者都在他们的回归中直接扔进厨房水槽?是否可以通过添加垃圾控件使 p 值变小?

1个回答

的标准误差公式写β^j

i=1nu^2(nk1)i=1n(xijx¯j)2(1Rj2)

其中是回归残差,是观察数,是回归量,对所有其他自变量 的回归u^2nkRj2R2xj

如果其他变量对因变量没有影响,则公式中唯一会改变的部分将是,这两者都会增加标准误差,从而导致更大的 p 值。 kRj2