在这里寻求关于线性模型系数的澄清后,我有一个关于因子水平系数的非显着(高 p 值)的后续问题。
示例:如果我的线性模型包含一个具有 10 个级别的因子,并且其中只有 3 个级别具有与之相关的显着 p 值,那么在使用该模型预测 Y 时,如果受试者属于其中之一,我可以选择不包括系数项非显着水平?
更彻底的是,将 7 个不重要的级别归为一个级别并重新分析是否有误?
在这里寻求关于线性模型系数的澄清后,我有一个关于因子水平系数的非显着(高 p 值)的后续问题。
示例:如果我的线性模型包含一个具有 10 个级别的因子,并且其中只有 3 个级别具有与之相关的显着 p 值,那么在使用该模型预测 Y 时,如果受试者属于其中之一,我可以选择不包括系数项非显着水平?
更彻底的是,将 7 个不重要的级别归为一个级别并重新分析是否有误?
@Ellie 的回答很好。
如果要放入具有多个级别的变量,则需要在分析中保留所有这些级别。根据显着性水平进行挑选和选择都会使您的结果产生偏差,并对您的推断做出非常奇怪的事情,即使您的估计值奇迹般地保持不变,因为您在不同水平的估计效应中会有巨大的漏洞多变的。
我会考虑以图形方式查看您对预测变量每个级别的估计。您是否看到上升水平的趋势,还是不稳定?
一般来说,我也反对基于统计测试或纯粹基于统计矩来重新编码变量。变量中的划分应该基于更坚定的东西 - 逻辑上有意义的切点,对特定过渡点的领域兴趣等。
如果您要输入具有多个级别的预测变量,您要么输入变量,要么不输入,您无法选择级别。您可能希望重组预测变量的级别以减少级别的数量(如果这在您的分析环境中有意义的话。)但是,我不确定这是否会导致某种类型的统计失效,如果您是崩溃级别,因为您看到它们并不重要。
另外,请注意,您说小值是微不足道的。我假设您的意思是小值很重要,即: .0001 的值很重要,因此您拒绝 null (假设水平?)。
扩展您已经得到的两个好的答案,让我们从实质上看一下。假设您的因变量是(例如)收入,而您的自变量是(例如)种族,具有水平,每个人口普查定义(白人,黑人/非洲裔美国人,美国印第安人/阿拉斯加原住民,亚洲人,夏威夷原住民/太平洋岛民,其他和多种族)。假设您使用 White 作为参考类别进行虚拟编码,您会得到
如果您在纽约市进行这项研究,您可能会得到很少的夏威夷原住民/太平洋岛民。您可能决定将它们(如果有的话)与其他人一起包括在内。但是,您不能使用完整的方程,也不能包括该系数。那么截距将是错误的,任何收入的预测值也将是错误的。
但是你应该如何组合类别?
正如其他人所说,它必须有意义。
给出不同的意见:为什么不将其作为随机效应包括在内?这应该惩罚那些支撑较弱的水平,并确保它们的影响最小。这样你就可以把它们全部放在里面,而不用担心得到愚蠢的预测。
是的,从随机效应的贝叶斯观点来看,这比随机效应的整个“所有可能水平的样本”观点更有动机。