可用于分类变量(在 R 中)的不同类型的编码有哪些,您何时使用它们?

机器算法验证 回归 混合模式 分类数据 对比 分类编码
2022-03-02 23:29:24

如果您拟合线性模型或混合模型,则可以使用不同类型的编码将分类或名义变量转换为估计参数的多个变量,例如虚拟条件(R 默认值)和效果编码。

我听说当你有交互时,效果编码(有时称为偏差或对比编码)是首选,但是可能的对比是什么?你什么时候使用哪种类型的对比?

上下文是 R using 中的混合建模lme4,但我认为更广泛的响应是好的。抱歉,如果我错过了类似的问题。

编辑:两个有用的链接是:效果编码虚拟编码解释。

1个回答

如果我错了,其他人可以启发我,但是这里……

与之前级别的平均值相比,该级别的影响是什么?即你有兴趣定位效果的阈值

  • 使用 Helmert 对比。我认为这是累积比较。当我有兴趣确定药物剂量反应的暴露极限时,我使用了它。一次比较多个级别意味着丢弃的信息更少。我认为这是累积比较。

水平相对于基线水平的影响是什么?即您对一个基线比较组感兴趣。

  • 使用虚拟变量编码(处理对比)。我认为这是基线比较。当其他研究通常将一个组/级别确定为重要时,我使用了此方法,并且我的研究表明,当超过此阈值时也存在关联。

一个变量的两个相邻水平的影响是什么?

  • 使用前向/后向差分。我认为这是短时间的连续比较。我在比较不同社会经济地位水平的影响时使用了这一点,当每个群体在他们自己的权利上是不同的并且不比任何其他群体更感兴趣时。