虚拟变量在回归中的意义

机器算法验证 回归 统计学意义 分类数据 p 值
2022-03-31 15:15:26

我在模型中使用分类变量(具有三个类别)作为自变量,发现一个类别变得重要,而另一类别不重要,而变量在整体水平上很重要,要包含在模型中。我不明白我是否应该在模型中包含无关紧要的类别。

2个回答

分类变量可以在回归模型中以几种不同的方式表示。到目前为止,最常见的是参考单元编码。根据您的描述(和我之前的描述),我怀疑这就是您的案例中使用的内容。标准统计输出将为您提供两个测试。假设 A 是参考水平,您将进行 B 与 A 的测试,以及 C 与 A 的测试(nb,C 可能与 B 显着不同,但与 A 不同,并且不会出现在这些测试中) . 这些测试通常不是您真正想知道的。您应该通过删除两者来测试多类别变量虚拟变量并执行嵌套模型测试。除非您有一个先验计划来测试预先指定的水平是否是必要的并且它不是“重要的”,否则您应该保留整个变量(即所有水平)。如果您确实有这样一个先验假设(即,那是您研究的重点),您可以只删除有问题的级别并执行嵌套模型测试。

它可以帮助您阅读其中一些主题。以下是进一步研究的一些参考资料:

分类变量的编码策略:

当您没有预先指定的假设时,根据您的发现修改模型的问题:

  • 虽然它的框架与您的情况不完全一样,但您可能可以从我的回答中得到这个想法:自动模型选择算法

多重比较的问题:

嵌套模型测试:

没有必要为每个类别包括指标变量。假设 A 类正在显着增加。您的结果建议您考虑将类别合并为“类别 A”和“所有其他类别”。

当然,您应该对嵌套模型与完整模型进行 F 检验,以检查删除其他类别的指标变量是否有意义。