机器算法验证 - 解释回归中分类参考组的交互作用 - 吾爱随笔录

解释回归中分类参考组的交互作用

机器算法验证 r 回归分类数据相互作用效果

2022-04-07 13:13:56

我在 R 中运行一个回归模型，包括以下变量：

意图 = 连续 DV
态度=连续IV
故事 = 4 个级别的类别 IV：消费者、遗产、愿景和产品
风格 = 4 个级别的分类 IV：和蔼可亲、分析性、驱动力和表现力

分类变量是虚拟编码的。我在 R 中运行了以下回归：

model 4 = glm(Intent ~ Story + Style + Attitude + Story*Style)

此回归的结果可在模型 4 下找到：

自然，R 将一种故事类型和一种风格设置为参考组，在我的例子中是消费者故事和 Amiable 风格。我唯一的问题是，我如何才能为这些参考群体得出结论？

我的目标是能够说“对于分析型风格，在呈现产品故事时购买意图是最积极的”。结果显示，Product*Analytical 的系数为 1.063。但是，我如何才能得出与 Amiable 人类似的结论呢？

欢迎任何帮助<3

2个回答

首先，使用分类预测变量的默认 R 处理编码，当所有其他预测变量都处于参考（分类预测变量）或 0 水平（连续预测变量，似乎是）时，诸如此类的事物的各个系数Story Vision是它们与结果的关联。Brand Attitude因此，该Story Vision系数专门针对具有的情况Style Amiable。同样，Style Driver系数适用于具有的情况Story Consumer。模型截距（我没有看到报告）是、和的组合的Style Amiable预期Story Consumer结果Brand Attitude = 0。

其次，虽然的交互作用系数Story Product : Style Analytical的数值为 1.063，但高相关标准误差 (0.727) 表明您无法可靠地将其值与 0 区分开来。不要过度解释这些值。

第三，您的数据集可能太小而无法容纳所有这些交互项。在模型 4 中，您需要估计 108 个案例和 16 个回归系数，比率小于 7/1。您通常需要大约 15/1 的比率，以避免过度拟合此类数据。您的 Model 3（无交互）具有更可靠的 15/1 比率。模型 4略高R-squared可能是由于数据过拟合；该模型可能不适用于新数据样本。

第四，您已经证明这Brand Attitude与结果密切相关。当您有足够的数据来支持比模型 3 更复杂的模型时，您可能会考虑评估该预测变量与Style和/或Story类别的交互，这可能比在各种Style和Story类别之间看到的相对较弱的交互更重要。

@EdM 提出了有效的观点——首先阅读这些观点。仅供参考，您可以使用emmeans包获得感兴趣的效果及其置信区间。例如：

library(emmeans)

# Toy data: add a dummy categorical variable to the Iris dataset
iris$Style <- rep(LETTERS[1:3], 50)

 iris
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species Style
1            5.1         3.5          1.4         0.2     setosa     A
2            4.9         3.0          1.4         0.2     setosa     B
3            4.7         3.2          1.3         0.2     setosa     C
4            4.6         3.1          1.5         0.2     setosa     A
5            5.0         3.6          1.4         0.2     setosa     B
...

拟合模型：

fit <- glm(data= iris, Sepal.Length ~ Species * Style)
summary(fit)
...
Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               5.05294    0.12486  40.470  < 2e-16 ***
Speciesversicolor         0.71765    0.17657   4.064 7.97e-05 ***
Speciesvirginica          1.70331    0.17931   9.499  < 2e-16 ***
StyleB                   -0.04118    0.17657  -0.233    0.816    
StyleC                   -0.10294    0.17931  -0.574    0.567    
Speciesversicolor:StyleB  0.28934    0.25166   1.150    0.252    
Speciesvirginica:StyleB  -0.26801    0.25166  -1.065    0.289    
Speciesversicolor:StyleC  0.35588    0.25166   1.414    0.160    
Speciesvirginica:StyleC  -0.08272    0.25359  -0.326    0.745    
...

获得边际意味着：

emmeans(fit, spec= ~Style|Species)

Species = setosa:
 Style emmean    SE  df lower.CL upper.CL
 A       5.05 0.125 141     4.81     5.30
 B       5.01 0.125 141     4.76     5.26
 C       4.95 0.129 141     4.70     5.20

Species = versicolor:
 Style emmean    SE  df lower.CL upper.CL
 A       5.77 0.125 141     5.52     6.02
 B       6.02 0.129 141     5.76     6.27
 C       6.02 0.125 141     5.78     6.27

Species = virginica:
 Style emmean    SE  df lower.CL upper.CL
 A       6.76 0.129 141     6.50     7.01
 B       6.45 0.125 141     6.20     6.69
 C       6.57 0.125 141     6.32     6.82

例如，这表明这A是物种 setosa 中最高的风格，尽管 A、B 和 C 彼此之间并没有令人信服的不同。

其它你可能感兴趣的问题

上一篇什么时候不应该使用归一化？下一篇接受-拒绝技术定理证明