我需要平衡样本(50% 是,50% 否)来运行逻辑回归吗?

机器算法验证 回归 物流 不平衡类
2022-03-10 14:41:16

我正在使用逻辑回归来预测学生保留率的项目。数据是通过三个自我报告工具收集的。我们正在尝试找出哪些预测器足够强大来预测处于危险中的学生。我看到一些文章说平衡样本(50% 停留,50% 辍学)对于此类研究是可取的,例如 Glynn, JG, Sauer, PL, & Miller, TE (2003)。用预科数据表明学生保留率NASPA 期刊, 41 (1), 41-67:

然而,一个问题是因变量的分布可能高度偏向于持久性。例如,如果分析样本的 85% 是持久者,则将每个学生分类为持久者的分类模型的成功率为 85%,或者正确分类 85% 的学生。为了解决这个问题,需要在分析样本中保持 dropout 数量和坚持者数量(约 50%)之间的相对平衡。

这是真的?我们的样本只有大约 25%-30% 的辍学学生。这会影响结果吗?

3个回答

这与其说是逻辑回归本身的问题,不如说是分类准确性作为性能衡量标准的问题。请注意,平衡数据集不一定是唯一有效的方法。如果其中一个类别实际上在人群中更为常见(而不仅仅是在您的样本中),那么一个简单的模型(将所有内容归类为最常见的类别)确实是一个很好的猜测。如果错误成本不对称,平衡数据集可能会导致您在错误的方向上犯错(成本更高的方向)。

问题也经常以相反的方式出现:在使用结果模型之前在非常不平衡的情况下训练/评估一些人为平衡的数据集(想想检测欺诈或诊断罕见疾病),其中模型的有用性几乎没有正如原始准确性所暗示的那样高。这完全取决于您的目标和成本结构。

是的; 它会影响结果。逻辑回归通过最小化在所有数据点评估的目标函数来拟合 MLE。如果数据不平衡,那么最小化也将不平衡。

虽然你的例子并不极端,但如果你重新平衡,你会得到不同的答案。

在 King 和 Zeng 中有一个很好的解释以及如何解决它, http: //gking.harvard.edu/files/gking/files/0s.pdf

阶级不平衡可能是一个真正的问题。下采样的替代方法是将成本分配给不同的类,这在流行的工具包中得到了支持。

例如,-j在 SvmLight(用于支持向量回归)或-wLibLinear(用于不同类型的线性回归)中查找参数。