解释回归中分类参考组的交互作用

机器算法验证 r 回归 分类数据 相互作用 效果
2022-04-07 13:13:56

我在 R 中运行一个回归模型,包括以下变量:

  • 意图 = 连续 DV
  • 态度=连续IV
  • 故事 = 4 个级别的类别 IV:消费者、遗产、愿景和产品
  • 风格 = 4 个级别的分类 IV:和蔼可亲、分析性、驱动力和表现力

分类变量是虚拟编码的。我在 R 中运行了以下回归:

model 4 = glm(Intent ~ Story + Style + Attitude + Story*Style)

此回归的结果可在模型 4 下找到:

在此处输入图像描述

自然,R 将一种故事类型和一种风格设置为参考组,在我的例子中是消费者故事和 Amiable 风格。我唯一的问题是,我如何才能为这些参考群体得出结论?

我的目标是能够说“对于分析型风格,在呈现产品故事时购买意图是最积极的”。结果显示,Product*Analytical 的系数为 1.063。但是,我如何才能得出与 Amiable 人类似的结论呢?

欢迎任何帮助<3

2个回答

首先,使用分类预测变量的默认 R 处理编码,当所有其他预测变量都处于参考(分类预测变量)或 0 水平(连续预测变量,似乎是)时,诸如此类的事物的各个系数Story Vision是它们与结果的关联。Brand Attitude因此,该Story Vision系数专门针对具有 的情况Style Amiable同样,Style Driver系数适用于具有 的情况Story Consumer模型截距(我没有看到报告)是 、 和 的组合的Style Amiable预期Story Consumer结果Brand Attitude = 0

其次,虽然 的交互作用系数Story Product : Style Analytical的数值为 1.063,但高相关标准误差 (0.727) 表明您无法可靠地将其值与 0 区分开来。不要过度解释这些值。

第三,您的数据集可能太小而无法容纳所有这些交互项。在模型 4 中,您需要估计 108 个案例和 16 个回归系数,比率小于 7/1。您通常需要大约 15/1 的比率,以避免过度拟合此类数据。您的 Model 3(无交互)具有更可靠的 15/1 比率。模型 4略高R-squared可能是由于数据过拟合;该模型可能不适用于新数据样本。

第四,您已经证明这Brand Attitude与结果密切相关。当您有足够的数据来支持比模型 3 更复杂的模型时,您可能会考虑评估该预测变量与Style和/或Story类别的交互,这可能比在各种StyleStory类别之间看到的相对较弱的交互更重要。

@EdM 提出了有效的观点——首先阅读这些观点。仅供参考,您可以使用emmeans获得感兴趣的效果及其置信区间。例如:

library(emmeans)

# Toy data: add a dummy categorical variable to the Iris dataset
iris$Style <- rep(LETTERS[1:3], 50)

 iris
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species Style
1            5.1         3.5          1.4         0.2     setosa     A
2            4.9         3.0          1.4         0.2     setosa     B
3            4.7         3.2          1.3         0.2     setosa     C
4            4.6         3.1          1.5         0.2     setosa     A
5            5.0         3.6          1.4         0.2     setosa     B
...

拟合模型:

fit <- glm(data= iris, Sepal.Length ~ Species * Style)
summary(fit)
...
Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               5.05294    0.12486  40.470  < 2e-16 ***
Speciesversicolor         0.71765    0.17657   4.064 7.97e-05 ***
Speciesvirginica          1.70331    0.17931   9.499  < 2e-16 ***
StyleB                   -0.04118    0.17657  -0.233    0.816    
StyleC                   -0.10294    0.17931  -0.574    0.567    
Speciesversicolor:StyleB  0.28934    0.25166   1.150    0.252    
Speciesvirginica:StyleB  -0.26801    0.25166  -1.065    0.289    
Speciesversicolor:StyleC  0.35588    0.25166   1.414    0.160    
Speciesvirginica:StyleC  -0.08272    0.25359  -0.326    0.745    
...

获得边际意味着:

emmeans(fit, spec= ~Style|Species)

Species = setosa:
 Style emmean    SE  df lower.CL upper.CL
 A       5.05 0.125 141     4.81     5.30
 B       5.01 0.125 141     4.76     5.26
 C       4.95 0.129 141     4.70     5.20

Species = versicolor:
 Style emmean    SE  df lower.CL upper.CL
 A       5.77 0.125 141     5.52     6.02
 B       6.02 0.129 141     5.76     6.27
 C       6.02 0.125 141     5.78     6.27

Species = virginica:
 Style emmean    SE  df lower.CL upper.CL
 A       6.76 0.129 141     6.50     7.01
 B       6.45 0.125 141     6.20     6.69
 C       6.57 0.125 141     6.32     6.82

例如,这表明这A是物种 setosa 中最高的风格,尽管 A、B 和 C 彼此之间并没有令人信服的不同。