机器算法验证 - 虚拟变量在回归中的意义 - 吾爱随笔录

虚拟变量在回归中的意义

机器算法验证回归统计学意义分类数据 p 值

2022-03-31 15:15:26

我在模型中使用分类变量（具有三个类别）作为自变量，发现一个类别变得重要，而另一类别不重要，而变量在整体水平上很重要，要包含在模型中。我不明白我是否应该在模型中包含无关紧要的类别。

2个回答

分类变量可以在回归模型中以几种不同的方式表示。到目前为止，最常见的是参考单元编码。根据您的描述（和我之前的描述），我怀疑这就是您的案例中使用的内容。标准统计输出将为您提供两个测试。假设 A 是参考水平，您将进行 B 与 A 的测试，以及 C 与 A 的测试（nb，C 可能与 B 显着不同，但与 A 不同，并且不会出现在这些测试中） . 这些测试通常不是您真正想知道的。您应该通过删除两者来测试多类别变量虚拟变量并执行嵌套模型测试。除非您有一个先验计划来测试预先指定的水平是否是必要的并且它不是“重要的”，否则您应该保留整个变量（即所有水平）。如果您确实有这样一个先验假设（即，那是您研究的重点），您可以只删除有问题的级别并执行嵌套模型测试。

它可以帮助您阅读其中一些主题。以下是进一步研究的一些参考资料：

分类变量的编码策略：

加州大学洛杉矶分校的统计帮助网站
我在这里讨论参考单元编码：Regression based for example on days of week

当您没有预先指定的假设时，根据您的发现修改模型的问题：

虽然它的框架与您的情况不完全一样，但您可能可以从我的回答中得到这个想法：自动模型选择算法

多重比较的问题：

您可能会浏览一些分类在多重比较标签
用于多重比较的维基百科页面

嵌套模型测试：

尽管在测试审核方面进行了讨论，但我在这里的回答应该足够清楚以了解这个想法：Test for moderation with Continuous vs. categorical moderators

没有必要为每个类别包括指标变量。假设 A 类正在显着增加。您的结果建议您考虑将类别合并为“类别 A”和“所有其他类别”。

当然，您应该对嵌套模型与完整模型进行 F 检验，以检查删除其他类别的指标变量是否有意义。

其它你可能感兴趣的问题

上一篇ARIMA 是否需要正态分布的误差或正态分布的输入数据？下一篇分类响应变量预测