我正在研究在一个学区就读的高中生的表现,超过 10 年。我的目标是推断导致学校考试成绩不佳的因素。我有所有辍学者的数据和统计数据。辍学是表现不佳者中的一大群人。例如,如果有 1000 名学生,则有 250 名表现不佳。在这 250 人中,有 200 人辍学,没有关于这些的数据。我计划运行一个逻辑回归模型并得出推论,但我该如何弥补这个缺失数据造成的不平衡?
可观察数据的不平衡
数据挖掘
预测建模
逻辑回归
采样
2022-03-14 13:42:56
1个回答
所以你有 750 : 50 的正负类比例。尝试在此数据上运行 LR。阶级不平衡不会成为问题。即使是这样,您也会对正类进行采样,然后在模型执行后重新校准概率。
我还建议您积极参与交叉验证堆栈交换社区。类似的问题也有回答。
其它你可能感兴趣的问题