机器算法验证 - 我可以忽略线性模型中非显着因素水平的系数吗？ - 吾爱随笔录

我可以忽略线性模型中非显着因素水平的系数吗？

机器算法验证统计学意义线性模型模型选择回归系数回归策略

2022-02-02 13:50:40

在这里寻求关于线性模型系数的澄清后，我有一个关于因子水平系数的非显着（高 p 值）的后续问题。

示例：如果我的线性模型包含一个具有 10 个级别的因子，并且其中只有 3 个级别具有与之相关的显着 p 值，那么在使用该模型预测 Y 时，如果受试者属于其中之一，我可以选择不包括系数项非显着水平？

更彻底的是，将 7 个不重要的级别归为一个级别并重新分析是否有误？

4个回答

@Ellie 的回答很好。

如果要放入具有多个级别的变量，则需要在分析中保留所有这些级别。根据显着性水平进行挑选和选择都会使您的结果产生偏差，并对您的推断做出非常奇怪的事情，即使您的估计值奇迹般地保持不变，因为您在不同水平的估计效应中会有巨大的漏洞多变的。

我会考虑以图形方式查看您对预测变量每个级别的估计。您是否看到上升水平的趋势，还是不稳定？

一般来说，我也反对基于统计测试或纯粹基于统计矩来重新编码变量。变量中的划分应该基于更坚定的东西 - 逻辑上有意义的切点，对特定过渡点的领域兴趣等。

如果您要输入具有多个级别的预测变量，您要么输入变量，要么不输入，您无法选择级别。您可能希望重组预测变量的级别以减少级别的数量（如果这在您的分析环境中有意义的话。）但是，我不确定这是否会导致某种类型的统计失效，如果您是崩溃级别，因为您看到它们并不重要。

另外，请注意，您说小值是微不足道的。我假设您的意思是小值很重要，即： .0001 的值很重要，因此您拒绝 null （假设水平？）。 $p$ $p$ $p$ $\alpha$ $> .0001$

扩展您已经得到的两个好的答案，让我们从实质上看一下。假设您的因变量是（例如）收入，而您的自变量是（例如）种族，具有水平，每个人口普查定义（白人，黑人/非洲裔美国人，美国印第安人/阿拉斯加原住民，亚洲人，夏威夷原住民/太平洋岛民，其他和多种族）。假设您使用 White 作为参考类别进行虚拟编码，您会得到

$Income = b_0 + b_1BAA + b_2AIAN + b_3AS + b_4NHPI + b_5O + b_6MR$

如果您在纽约市进行这项研究，您可能会得到很少的夏威夷原住民/太平洋岛民。您可能决定将它们（如果有的话）与其他人一起包括在内。但是，您不能使用完整的方程，也不能包括该系数。那么截距将是错误的，任何收入的预测值也将是错误的。

但是你应该如何组合类别？

正如其他人所说，它必须有意义。

给出不同的意见：为什么不将其作为随机效应包括在内？这应该惩罚那些支撑较弱的水平，并确保它们的影响最小。这样你就可以把它们全部放在里面，而不用担心得到愚蠢的预测。

是的，从随机效应的贝叶斯观点来看，这比随机效应的整个“所有可能水平的样本”观点更有动机。

其它你可能感兴趣的问题

上一篇逻辑回归是非参数检验吗？下一篇如何对非常高维的数据执行 PCA？