除了从字面上测试模型中每个可能的变量组合(x1:x2
或x1*x2 ... xn-1 * xn
)。您如何确定您的独立(希望)变量之间是否应该或可能存在交互?
尝试识别交互的最佳实践是什么?是否有您可以或确实使用的图形技术?
除了从字面上测试模型中每个可能的变量组合(x1:x2
或x1*x2 ... xn-1 * xn
)。您如何确定您的独立(希望)变量之间是否应该或可能存在交互?
尝试识别交互的最佳实践是什么?是否有您可以或确实使用的图形技术?
Cox 和 Wermuth (1996) 或 Cox (1984) 讨论了一些检测相互作用的方法。问题通常是交互项应该有多笼统。基本上,我们 (a) 拟合(并测试)所有二阶交互项,一次一个,并且 (b) 绘制它们对应的 p 值(即,作为)。然后的想法是查看是否应该保留一定数量的交互项:在所有交互项为空的假设下,p 值的分布应该是均匀的(或者等效地,散点图上的点应该大致分布在一条穿过原点的线)。
现在,正如@Gavin所说,拟合许多(如果不是全部)交互可能会导致过度拟合,但在某种意义上它也是无用的(一些高阶交互项通常根本没有意义)。然而,这与解释有关,而不是对相互作用的检测,Cox 在Interpretation of interaction: A review中已经提供了很好的评论(应用统计年鉴2007, 1(2), 371–385)——它包括上面引用的参考文献。其他值得关注的研究方向是遗传研究中的上位效应研究,特别是基于图形模型的方法(例如,一种识别基因关联网络中统计交互器的有效方法)。
我的最佳做法是在拟合模型之前考虑要解决的问题。考虑到您正在研究的现象,什么是合理的模型?拟合变量和交互的所有可能组合对我来说听起来像是数据挖掘。
拟合树模型(即使用 R)将帮助您识别解释变量之间的复杂交互。在此处阅读第 30 页的示例。
由于我完全同意 Gavin 的观点,我将在此回复前作序,如果您有兴趣拟合任何类型的模型,它应该反映正在研究的现象。识别任何和所有影响的逻辑(以及 Gavin 在说数据挖掘时所指的内容)的问题在于,您可以拟合无限数量的交互,或变量的二次项,或对数据的转换,并且您不可避免地会为您的数据的某些变化找到“重大”影响。
正如 chl 所说,这些高阶交互效应实际上没有任何解释,而且通常即使是低阶交互也没有任何意义。如果您对开发因果模型感兴趣,您应该只包括您认为可能与您的因变量相关的术语,以先验地拟合您的模型。
如果您认为它们可以提高模型的预测能力,您应该查找有关模型选择技术的资源,以防止过度拟合您的模型。