我可以忽略线性模型中非显着因素水平的系数吗?

机器算法验证 统计学意义 线性模型 模型选择 回归系数 回归策略
2022-02-02 13:50:40

在这里寻求关于线性模型系数的澄清后,我有一个关于因子水平系数的非显着(高 p 值)的后续问题。

示例:如果我的线性模型包含一个具有 10 个级别的因子,并且其中只有 3 个级别具有与之相关的显着 p 值,那么在使用该模型预测 Y 时,如果受试者属于其中之一,我可以选择不包括系数项非显着水平?

更彻底的是,将 7 个不重要的级别归为一个级别并重新分析是否有误?

4个回答

@Ellie 的回答很好。

如果要放入具有多个级别的变量,则需要在分析中保留所有这些级别。根据显着性水平进行挑选和选择都会使您的结果产生偏差,并对您的推断做出非常奇怪的事情,即使您的估计值奇迹般地保持不变,因为您在不同水平的估计效应中会有巨大的漏洞多变的。

我会考虑以图形方式查看您对预测变量每个级别的估计。您是否看到上升水平的趋势,还是不稳定?

一般来说,我也反对基于统计测试或纯粹基于统计矩来重新编码变量。变量中的划分应该基于更坚定的东西 - 逻辑上有意义的切点,对特定过渡点的领域兴趣等。

如果您要输入具有多个级别的预测变量,您要么输入变量,要么不输入,您无法选择级别。您可能希望重组预测变量的级别以减少级别的数量(如果这在您的分析环境中有意义的话。)但是,我不确定这是否会导致某种类型的统计失效,如果您是崩溃级别,因为您看到它们并不重要。

另外,请注意,您说小值是微不足道的。我假设您的意思是小值很重要,即: .0001 的值很重要,因此您拒绝 null (假设水平?)。 pppα>.0001

扩展您已经得到的两个好的答案,让我们从实质上看一下。假设您的因变量是(例如)收入,而您的自变量是(例如)种族,具有水平,每个人口普查定义(白人,黑人/非洲裔美国人,美国印第安人/阿拉斯加原住民,亚洲人,夏威夷原住民/太平洋岛民,其他和多种族)。假设您使用 White 作为参考类别进行虚拟编码,您会得到

Income=b0+b1BAA+b2AIAN+b3AS+b4NHPI+b5O+b6MR

如果您在纽约市进行这项研究,您可能会得到很少的夏威夷原住民/太平洋岛民。您可能决定将它们(如果有的话)与其他人一起包括在内。但是,您不能使用完整的方程,也不能包括该系数。那么截距将是错误的,任何收入的预测值也将是错误的。

但是你应该如何组合类别?

正如其他人所说,它必须有意义

给出不同的意见:为什么不将其作为随机效应包括在内?这应该惩罚那些支撑较弱的水平,并确保它们的影响最小。这样你就可以把它们全部放在里面,而不用担心得到愚蠢的预测。

是的,从随机效应的贝叶斯观点来看,这比随机效应的整个“所有可能水平的样本”观点更有动机。