DV:工作反应虚拟变量,(1=家庭增加工作,0=hh 没有增加工作) IV:家庭规模(连续变量)
我正在对这些变量进行逻辑回归。我担心的是我知道在使用分类预测变量时我需要确保没有空单元格。但是,我不确定逻辑回归如何与连续预测器一起工作。我知道它将查看由连续预测变量中的一个单位变化引起的 DV 几率的变化。但是,它是否以类似的方式处理连续变量。在这种情况下,我是否应该担心空单元格。例如,可能只有一个家庭有 17 个成员。我希望我的问题相当清楚。我很感激你能给我的任何帮助。谢谢你。
DV:工作反应虚拟变量,(1=家庭增加工作,0=hh 没有增加工作) IV:家庭规模(连续变量)
我正在对这些变量进行逻辑回归。我担心的是我知道在使用分类预测变量时我需要确保没有空单元格。但是,我不确定逻辑回归如何与连续预测器一起工作。我知道它将查看由连续预测变量中的一个单位变化引起的 DV 几率的变化。但是,它是否以类似的方式处理连续变量。在这种情况下,我是否应该担心空单元格。例如,可能只有一个家庭有 17 个成员。我希望我的问题相当清楚。我很感激你能给我的任何帮助。谢谢你。
这可以削减两种方式,但主要是一种。在逻辑回归中,与任何类型的回归一样,拥有连续的预测变量很好,实际上通常更好。
在将连续变量作为预测变量和将连续变量分类作为预测变量之间进行选择时,通常首选第一个。在最粗略的层面上,您只是通过对连续变量进行分类来丢弃信息。好几个地方都在讨论。Frank Harrell 在他的回归建模策略(纽约:Springer,2001;Cham,Springer,2015)中很好地处理了这个问题并提供了参考。
此外,实际上并不需要担心空单元格。家庭规模的值,这是你这里的主要例子,可能不存在 13、14、15、16 名成员,或者 42 或 420 人。在你的数据集中有一个 3 米高的人。
确实,同样的问题可能会在异常值方面受到影响,但这也可能发生在分类解决方案中。如果一些点是 0,一些点是 1,或者极少数是 5,那也可能是异常情况。
限定条件是,按原样输入预测变量意味着它的影响是累加的和线性的。但这不是一个致命的反对意见:只需考虑添加交互项或酌情对其进行转换。或者根据样条进行处理:刚刚引用的书中有丰富的例子。
确实,将有序变量甚至连续变量减少到二分水平会丢失很多信息,但这是逻辑回归中因变量(即连续因变量二分)的问题。对于连续预测变量(自变量),逻辑回归假设预测变量与结果的对数几率线性相关(称为“logit 线性”的假设)。如果违反此假设,逻辑回归会低估关联的强度并太容易拒绝关联,即不显着(不拒绝零假设),而它应该是显着的。可以执行 Box-Tidwell 检验来评估逻辑回归所需的对数(赔率)中的线性。如果没有观察到线性,可以根据四分位数和 logit 图检查连续预测变量的分类尺度。分数多项式和样条函数也可用于对连续预测变量进行建模。为了更好地讨论检查 logdds 中连续协变量尺度的方法,我建议阅读由 Hosmer、Lemeshow 和 Sturdivant 撰写的 Applied Logistic Regression,第 3 版的第 4 章。