是否在逻辑回归中转换非正态自变量?

机器算法验证 物流 正态分布 数据转换
2022-04-01 08:42:57

我最近收到了以下电子邮件,我将其解释如下:

我想对数据进行二项式逻辑回归,并且我有非正态分布的 IV。我尝试对非正常 IV 进行平方根转换。这成功地使分布正常化;然而,当我对数据进行逻辑回归时,我得到了荒谬的结果,即 OR:14,CI 6 - 180。所以我通过对变量进行平方来转换变量,然后再次运行分析。

问题

  • 为什么应用平方根变换后优势比看起来很荒谬?
  • 在进行逻辑回归时,是否应该将平方根变换应用于非正态预测变量?
1个回答

为什么优势比在转换变量上看起来很奇怪

转换会改变变量的度量。优势比是在所有其他 IV 不变的情况下,IV 增加一个单位的预测优势差异。一个单位的含义经过平方根变换后会有很大的不同。

例如,如果您有一个 1 到 100 的原始比例,那么在转换之后,原始比例上的 16 和 25 之间的差异将与平方根变换比例上的 4 和 5 之间的差异相同。因此,在平方根变换之后,您的优势比变得更大也就不足为奇了。

如果您想以与缩放无关的方式检查转换的效果,您可以标准化您的 IV(即,使它们成为 z 分数)。因此,您可以比较原始变量的 z 分数与转换变量的 z 分数的优势比。这将允许您隔离更改类别之间的相对距离的影响。

是否转换逻辑回归中的非正态预测变量

预测变量的正态性不是逻辑回归或线性回归的假设。有关更多详细信息,请参阅@whuber 的答案

也就是说,您可能会发现 IV 的一种缩放比例更具预测性或可解释性。我会使用这样的标准来决定是否要转换预测变量。