学生录取概率预测模型构建中的问题

数据挖掘 分类 scikit-学习
2022-02-23 22:06:27

我正在尝试建立一个模型来预测学生被俄罗斯教育系统录取的概率。每个学校科目都有考试。学生可以带几个。根据考试结果,学生可以被某些学院录取(例如,化学、计算机科学、经济学、政治学)。

我使用 scikit-learn 来构建模型。我尝试了朴素贝叶斯、随机森林和其他分类估计器,但没有太大区别。我使用方法predict_proba来获取概率,并将每次考试的分数作为特征和教师作为目标的数据集(教师被视为班级)

主要问题是,当增加更多参加的考试时,教师的概率会降低,而应该增加或不改变。

我的猜测是,该模型给出了具有这样分数的学生中最受欢迎的院系,而不是录取概率。我可以做些什么来改进模型吗?

1个回答

确保你建模Y数据以正确的方式。

我能想到的一些原因是为什么你会得到如此奇怪的结果:

  • 您正在为所有学生与所有学院建模二进制是/否答案,确保您只考虑提交给给定学院的学生(其中一些通过,一些没有通过),而不是所有学生。
  • 有时更多的考试会给你的答案添加噪音,因为学院会寻找那些在他们所寻找的东西上表现出色的专业人士,这意味着你会发现其他结果对于答案来说是“噪音”。