为回归编码分类变量

机器算法验证 多重回归 分类数据 分类编码
2022-04-08 12:00:18

我不确定将分类预测变量编码以用于分层回归以测试我的特定假设的最佳方法。此分类变量有 3 个级别,代表 3 个组。我想将第 1 组与第 2 组进行比较,将第 1 组与第 3 组进行比较,将第 2 组与第 3 组进行比较。我知道对于虚拟编码,我创建了 k-1 个变量,因此在我的情况下有 2 个虚拟变量,并用 0 和 1 对这些变量进行编码同时选择分类变量的一个级别作为参考类别。

但是,我不确定这是进行我希望进行比较的最佳方式,因为我似乎只能将每个组与参考类别进行比较,对吗?因此,如果第 3 组是参考类别,我可以将第 1 组与第 3 组和第 2 组与第 3 组进行比较,但我无法将第 1 组与第 2 组进行比较。我应该使用什么替代编码方法来进行这些比较?我的回归模型也将包含连续变量。我是一名本科心理学学生,统计学不是我的强项,简单的答案对我来说是最好的。我使用 SPSS。谢谢!

3个回答

这是一个使用employee data.sav标准安装的数据的示例。假设salary是因变量,工作类别 ,jobcat是分类自变量,起薪 ,salbegin是连续自变量。使用 GLM,您可以在每对工作类别之间进行成对比较。步骤如下:

  1. 打开数据集后,转到分析 > 一般线性模型 > 单变量。 在此处输入图像描述

  2. 将因变量和自变量放入正确的槽中。分类自变量进入“固定因子”,连续变量进入“协变量”。不要担心随机因素。全部设置好后,单击“模型”按钮。 在此处输入图像描述

  3. 在“模型”面板中,突出显示两个自变量,然后将构建项更改为“主效应”,然后单击箭头按钮(由红色圆圈表示)以将两个变量置于上面。全部设置后,单击“继续”。 在此处输入图像描述

  4. 现在,单击“选项”按钮。 在此处输入图像描述

  5. 在“选项”面板中,执行以下操作:1) 突出显示jobcat,2) 通过单击箭头按钮将其移到右侧,3) 选中“比较主要效果”,4) 指定您想要对倍数进行的调整成对比较。我将其保留为 LSD,它不会针对多个测试进行调整,5)检查“参数估计”,以便您也可以获得回归系数。完成后,单击继续,然后单击确定以提交测试。 在此处输入图像描述

  6. 这是回归系数表: 在此处输入图像描述

  7. 向下滚动一点,您会找到成对比较表: 在此处输入图像描述

由于您想将所有组相互比较,因此测试不会是正交的,即使它们是先验的。所以你应该使用一个测试来解决这个问题。 Tukey 的诚实显着性差异(HSD) 测试可以做到这一点,并且为许多人所熟悉。您不必担心使用的编码类型。首先,正如@Scortchi 所说,您可以使用任何常规编码方法(参考级别、效果等)执行此测试。其次,SPSS 可能会为您处理编码。

自从我使用 SPSS 以来已经有很长时间了,但我认为您会使用GLM 单变量分析选项,因为您有连续变量和分类变量。可以在此处找到运行 GLM 后进行事后比较的 SPSS 文档

维基百科关于事后分析的文章列出了几个测试/选项,用于在发现某个因素后比较组。我不再了解 SPSS,但我希望它能够实现该列表中的一项或多项测试。您可以在 SPSS 文档中搜索这些术语,这应该会告诉您如何指定您想要这些比较。

谷歌搜索“SPSS post hoc”也带来了几个有希望的链接。