在线性回归中,解释变量的变换是为了与因变量具有最大相关性。
由于因变量是二元的而不是连续的,因此在逻辑回归中的多个变换之间进行选择的最佳度量是什么?
最终目标是最大化模型的提升(预测能力)。
在线性回归中,解释变量的变换是为了与因变量具有最大相关性。
由于因变量是二元的而不是连续的,因此在逻辑回归中的多个变换之间进行选择的最佳度量是什么?
最终目标是最大化模型的提升(预测能力)。
逻辑回归(和许多其他方法)使用的最优性标准是似然函数。它用于估计包括多个代表一个实现二次、三次和分段多项式(样条)拟合。它还可以用于从竞争转换中进行选择但选择的行为不会反映在信息矩阵中,因此产生的方差为将太小,使置信区间没有规定的覆盖概率。如果您将转换估计作为模型拟合的明确目标(回归样条是实现此目的的绝佳方法),您将保留统计推断的所有方面。根据样本大小,需要 3 个参数的 4 个节点的受限(双尾线性)三次样条可能是一个不错的选择。
不,在线性模型中,不会(或不应该)进行转换以与因变量具有最大相关性。应该这样做是为了 a) 满足关于残差的模型假设或 b) 有一个更合理的解释变量;也就是说,一个有意义的,实质性的。正如@Andy 指出的那样,这可能还不够。但是,在这种情况下,我会寻找一种替代的回归方法(见下文),而不是进行一些奇怪的转换。例如一个模型,如解释起来会很混乱。
在逻辑回归中(至少在二分逻辑中),假设较少(据我所知,没有关于残差的假设),所以只有 b)适用。
即使对于线性模型,我也倾向于使用 b)。然后,如果不满足假设,则使用其他形式的回归(可能是稳健回归,可能是样条模型,可能是多项式)。
对于广义线性建模,最小化的数学度量称为“偏差”(-2*log-likelihood)。有几种残差可以开发。“偏差残差”是适度复杂表达式中的各个项。我认为将这些应用于分类变量时最容易理解。对于使用逻辑回归的分类变量,这些只是 log-odds(模型)和 log-odds(数据)之间的差异,但对于连续变量,它们稍微复杂一些。偏差残差是在迭代过程中最小化的。有关偏差残差的一些漂亮图,请参阅UCLA 网站上的此描述。
在我看来,“提升”的分析是在概率尺度上完成的,而不是在对数赔率或赔率尺度或可能性上。我看到弗兰克哈雷尔提供了一些建议,弗兰克和我之间的任何争议都应该通过弗兰克的意见的大量加权来解决。(我的建议是购买 Frank 的 RMS 书。)我很惊讶他没有提供考虑惩罚方法的建议,并且他没有发出过度拟合的警告。我认为仅仅因为它最大化“提升”而选择转换类似于选择最大化“准确性”的模型。我知道他不支持这种策略。