对比的虚拟编码:0,1 vs. 1,-1

机器算法验证 多重回归 分类数据 分类编码
2022-03-09 15:34:57

我正在寻求您的帮助,以了解二分变量的两种不同对比之间的差异。

在此页面上: http : //www.psychstat.missouristate.edu/multibook/mlt08.htm 在“二分预测变量”下,有两种编码二分预测变量的方法:使用对比 0,1 或对比 1,-1 . 我有点理解这里的区别(0,1 是虚拟编码,1,-1 添加到一组并从另一组中减去)但不明白在我的回归中使用哪个。

例如,如果我有两个二分预测变量,性别 (m/f) 和运动员 (y/n),我可以在两者上使用对比 0,1 或在两者上使用 1,-1。当使用两种不同的对比时,主效应或交互效应的解释是什么?这是否取决于我的细胞大小是否不同?

1个回答

“二分预测变量”,有两种编码二分预测变量的方法:使用对比 0,1 或对比 1,-1。

这实际上是错误的。编码方式的数量没有限制。这两个只是最常见的(实际上在它们之间,几乎无处不在),并且可能是最容易处理的。

我有点理解这里的区别(0,1 是虚拟编码,1,-1 添加到一组并从另一组中减去)但不明白在我的回归中使用哪个。

哪个更方便/合适。如果你有一个设计的实验,每个实验都有相同的数字,那么第二种方法有一些不错的方面;如果你不这样做,第一个可能在几个方面更容易。

例如,如果我有两个二分预测变量,性别 (m/f) 和运动员 (y/n),我可以在两者上使用对比 0,1 或在两者上使用 1,-1。

当使用两种不同的对比时,主效应或交互效应的解释是什么?

a) (i) 考虑性别主效应(为简单起见没有交互作用){m=0, f=1} - 然后对应于该虚拟变量的系数将衡量女性和男性之间的均值差异(截距将是男性的平均值)。

(ii) 对于{m=-1, f=1},性别主效应是均值差的一半,截距是均值的平均值(如果设计是平衡的,它也是所有数据的平均值) . 等效地,主要影响是每组均值与截距的差异。

b) (i) 考虑性别{m=0,f=1}和运动员{n=0,y=1}之间的相互作用

现在截距代表男性非运动员的平均值(0,0),性别主效应是女性非运动员和男性非运动员平均值之间的差异,运动员主效应表示平均值之间的差异男性运动员和男性非运动员之间的相互作用是两个差异的差异 - 这是女性的平均运动员/非运动员差异减去平均运动员/非运动员的差异。

(ii) 考虑性别{m=-1,f=-1}和运动员{n=-1,y=1}之间的相互作用

现在截距代表四个组均值的平均值(如果设计完全平衡,它也将是整体平均值)。截距是之前的四分之一。

主要影响是差异效应的平均值 - 性别效应是运动员内男女差异和非运动员内男女差异的平均值。运动员主效应是女性运动员/非运动员差异和男性运动员/非运动员差异的平均值。

这是否取决于我的细胞大小是否不同?

“不同尺寸”是什么意思?您的意思是每个单元格中的观察次数不同吗?(如果是这样,我在上面主要解决了这个问题 - 相同的单元格数给出了额外的含义/简化了解释,例如使截距成为数据的总平均值,而不仅仅是组平均值的平均值。)