我正在使用逻辑回归来预测学生保留率的项目。数据是通过三个自我报告工具收集的。我们正在尝试找出哪些预测器足够强大来预测处于危险中的学生。我看到一些文章说平衡样本(50% 停留,50% 辍学)对于此类研究是可取的,例如 Glynn, JG, Sauer, PL, & Miller, TE (2003)。用预科数据表明学生保留率,NASPA 期刊, 41 (1), 41-67:
然而,一个问题是因变量的分布可能高度偏向于持久性。例如,如果分析样本的 85% 是持久者,则将每个学生分类为持久者的分类模型的成功率为 85%,或者正确分类 85% 的学生。为了解决这个问题,需要在分析样本中保持 dropout 数量和坚持者数量(约 50%)之间的相对平衡。
这是真的?我们的样本只有大约 25%-30% 的辍学学生。这会影响结果吗?