如何处理逻辑回归(SPSS)中的非二元分类变量

机器算法验证 物流 分类数据 spss 序数数据 分类编码
2022-03-07 19:15:11

我必须用很多自变量进行二元逻辑回归。它们中的大多数是二元的,但少数分类变量具有两个以上的级别。

处理这些变量的最佳方法是什么?

例如,对于具有三个可能值的变量,我假设必须创建两个虚拟变量。那么,在逐步回归过程中,最好同时测试两个虚拟变量,还是分别测试它们?

我会用SPSS,但是记不太清楚了,所以:SPSS是如何处理这种情况的呢?

此外,对于序数分类变量,使用重新创建序数尺度的虚拟变量是一件好事吗?(例如,对 4 状态序数变量使用三个虚拟变量,将0-0-0级放入而不是,4 级。)11-0-021-1-031-1-140-0-01-0-00-1-00-0-1

3个回答

UCLA 网站上有很多很棒的教程,每个程序都按照您熟悉的软件类型进行细分。查看带注释的 SPSS 输出:逻辑回归——他们提到的 SES 变量是分类的(而不是二元的)。SPSS 将自动为您创建指标变量。还有一个专门用于SPSS 回归中的分类预测变量的页面,其中包含有关如何更改默认编码的特定信息和一个特定于Logistic Regression的页面。

逻辑回归是一种非常灵活的方法。它可以很容易地用作自变量分类变量。大多数使用逻辑回归的软件都应该允许您使用分类变量。

例如,假设您的分类变量之一是定义为三类的温度:冷/温和/热。正如您所建议的那样,您可以将其解释为三个单独的虚拟变量,每个变量的值都为 1 或 0。但是,软件应该允许您使用单个分类变量而不是文本值冷/温和/热。并且,logit 回归将为三个温度条件中的每一个推导出系数(或常数)。如果一个不重要,软件或用户可以很容易地取出它(在观察 t stat 和 p 值之后)。

将分类变量类别分组为单个分类变量的主要好处是模型效率。模型中的单个列可以处理单个分类变量所需的多个类别。相反,如果您为分类变量的每个类别使用一个虚拟变量,您的模型可以快速增长到具有大量列,这些列在提到的替代方案中是多余的。

据我了解,对分类/名义数据使用虚拟变量是很好的,而对于序数数据,我们可以对不同级别使用 1、2、3 的编码。对于虚拟变量,如果对于特定的观察结果为真,我们将编码为 1,否则编码为 0。虚拟变量也将比编号小 1。在级别中,例如在二进制中我们有 1。虚拟变量中的全“0”观察将自动为未编码的虚拟变量生成 1。