当其中一个可能具有二次项和三次项时,我应该如何对解释变量之间的交互进行建模?

机器算法验证 假设检验 混合模式 相互作用 非线性 回归策略
2022-03-13 17:31:18

我真诚地希望我已经以可以明确回答的方式来表达这个问题 - 如果没有,请告诉我,我会再试一次!我还应该注意,我将使用 R 进行这些分析。

plant performance (Ys)我怀疑有几个测量值受到我施加的四种治疗的影响flower thinning (X1), fertilization (X2), leaf clipping (X3)——和biased flower thinning (X4)对于所有可能的 Y,N 至少为 242,因此我的样本量很大。所有地块要么进行间伐,要么不进行间伐,但每个地块也进行了其他三种处理中的一种(并且只有一种)(或者没有——也有控制地块)。这种设计的想法是测试其他三种治疗方法是否能够“掩盖”或“增强”变薄的效果。因此,按照设计,后三种处理(X2-X4)不能相互相互作用,因为它们没有交叉,但它们都可以与花朵稀疏相互作用——而且它们可能确实如此。

我的明确假设是 1)开花疏花将是显着的,并且 2)开花疏X1*X2, X1*X3, and X1*X4,花和其他三种处理之间的相互作用项也将是显着的。也就是说,疏花应该很重要,但重要的方式应该会因其他三种处理方法的作用而显着改变。

我想将所有这些信息包含在混合模型中:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

但是有一个问题:我有充分的理由相信细化对 Y 的影响是非线性的。它们可能是二次的,但在某些情况下甚至可能是三次的。这是因为细化对性能的影响很可能在更高的细化水平上增加得更快。如果我尝试通过为 X1 添加二次项和三次项来通过上面的方程对这种非线性关系进行建模,那么我不确定如何对交互项进行建模——我是否应该包括 X1、(X1)^ 的所有可能组合2, 和 (X1)^3 * X2, X3 和 X4?因为这似乎有很多参数要尝试估计,即使我有很多数据点,我也不确定如何解释我会得到的结果。也就是说,我没有生物学上的理由认为这将是一种不谨慎的方式来模拟这种情况。

所以,对于如何解决这个问题,我有三个想法:

  1. 首先拟合一个较小的模型,例如Y ~ X1 + X1^2 + X^3 + Random effects,其唯一目的是确定细化和 Y 之间的关系是线性、二次还是三次,然后通过平方根或立方根变换细化以适当地线性化关系。从那里,交互项可以像上面那样用转换后的变量建模。
  2. 假设显着的交互作用(如果发生)仅影响 X1 项中的一项(即仅线性、二次或三次项),并相应地对交互作用进行建模。我什至不确定这种方法是否有意义。
  3. 只需将“完整模型”与细化项与上面讨论的其他处理之间的每个可能的交互项拟合即可。然后,删除无关紧要的交互项并使用图表和其他技术来解释结果。

鉴于我对假设检验而不是模型选择感兴趣,这些方法中的哪一种(如果有的话)最有意义,为什么?特别是,如果上面的#1没有意义,那是为什么呢?我已经阅读了这篇文章这篇文章,并试图消化它们对我的意义,但任何进一步阅读的资源也将不胜感激!

2个回答

这些方法都不能正常工作。方法 3. 接近了,但后来你说你会删掉无关紧要的条款。这是有问题的,因为共线性使您无法找到要删除的项,并且如果您想保留 I 类错误,这会给您在假设检验中提供错误的自由度。

根据您的问题中的有效样本大小和信噪比,我建议使用所有产品和主要效应项拟合模型,并使用绘图和“块测试”(相关术语的多个 df 测试,即整体交互作用检验、非线性交互作用检验、包括主效应+交互作用在内的整体效应检验等)。为多元正态时,Rrms包使标准单变量模型和纵向模型很容易做到这一点。例子:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

当您看到该anova表时,您会看到标记的线All Interactions,用于整个模型测试所有交互项的综合影响。对于单个预测器,这仅在预测器与多个变量交互时才有用。print方法中有一个选项anova.rms可以通过表中的每一行准确显示正在针对零进行测试的参数。所有这些都适用于分类和连续预测变量的混合。

如果您想使用普通多项式,请使用pol而不是rcs.

不幸的是,我还没有实现混合效果模型。

我喜欢使用非参数平滑回归来评估因变量和预测变量之间关系的函数形式,即使我随后要估计参数回归模型。虽然我经常发现非线性关系,但我从未发现非线性交互作用项,即使主效应是强非线性的。我的结论是:交互效应不必由与它们所组成的预测因子相同的功能形式组成。