逻辑回归中是否有一项措施可能会因为您有太多自变量而受到惩罚,例如在调整后的 R 平方的多元回归中?
也就是说,逻辑回归中的自变量过多会损害模型吗?
虚拟变量呢?你能有太多到不可预测的地步吗?
逻辑回归中是否有一项措施可能会因为您有太多自变量而受到惩罚,例如在调整后的 R 平方的多元回归中?
也就是说,逻辑回归中的自变量过多会损害模型吗?
虚拟变量呢?你能有太多到不可预测的地步吗?
对于我们在大多数问题中看到的典型低信噪比,一个常见的经验法则是,您需要大约 15 倍的事件和 15 倍的非事件,因为您可以将参数放入模型中。该“规则”的基本原理是,它导致模型性能指标在新数据中的好坏可能与在训练数据中的表现一样好。但是您需要 96 个观察值来估计截距,以便总体预测风险在真实风险的误差幅度,置信度为 0.95。
与观察值相比,参数过多可能会导致过度拟合。可以使用各种调整或措施来纠正这一点。例如,AIC 考虑了数据集中变量的数量和观察的数量,并且可能是最常用的。AIC 本身不会调整模型,但如果您构建多个模型,它会用作选择最佳模型的工具。它基本上是残差和模型复杂性之间的权衡。
您还可以查看其他“信息标准”或更高级的技术,如交叉验证、惩罚逻辑回归(R 中的“惩罚”包),......
如果自变量的数量不是很大,您可以只进行“所有子集”回归,其中所有可能的模型都适合。选择具有最高F 统计量或解释变异比例(PVE) 的模型(注意:该概念是通过线性回归建立的,但也可以应用于逻辑回归)。但这通常会导致我们会选择完整的模型。因此,我们需要惩罚具有许多变量的模型,这些模型与使用Akaike 信息准则(AIC)的变量较少的模型相比并不好。较低的 AIC 值通常表明我们最终会选择更好的模型。
如果自变量的数量很大。策略是,选择只有一个变量的最佳模型,然后选择另一个变量,从而获得具有两个变量的最佳模型,然后选择第三个变量……以此类推。一旦 AIC 增加,选择就会停止。通常,在所有子集回归中,复杂度约为 O(n^2) 而不是 O(2^n)。