交互项和高阶多项式

机器算法验证 r 回归 模型选择
2022-03-23 20:43:19

如果我对拟合线性解释变量之间的双向交互感兴趣a和另一个解释变量b与因变量呈二次关系y,我是否必须在模型中同时包含与二次分量的交互以及与线性分量的交互?例如:

ya+b+b2+ab+ab2
反过来建立在我以前的线程: 曲率项和模型选择,如果这是在 R 中使用具有许多解释变量的模型选择分析MuMIn,输出模型是否包含包含二次项的交互项a:b2仅当与线性分量的交互项有效a:b也出现在同一模型中,以及a,bb2作为直接影响?

1个回答

是的,您应该始终在交互中包含所有项,从最高阶一直到线性项。CV 上有几个非常棒的主题,它们讨论了相关问题,您可能会发现这些问题有助于您思考这个问题:

简短的回答是,通过在模型中不包含某些项,您会强制其中的一部分完全为零。这会给您的模型带来一定的不灵活性,这必然会导致偏差,除非这些参数实际上完全为零这种情况类似于抑制拦截(您可以在此处看到讨论)。

您还应该知道,任何自动模型选择例程都是危险的。(对于基本故事,在这里阅读我的答案可能会有所帮助。)但是,除此之外,这些算法不会“思考”变量之间的关系,因此它们不一定保留较低级别的术语当模型中包含幂项或交互项时。