我正在尝试建立一个模型来预测学生被俄罗斯教育系统录取的概率。每个学校科目都有考试。学生可以带几个。根据考试结果,学生可以被某些学院录取(例如,化学、计算机科学、经济学、政治学)。
我使用 scikit-learn 来构建模型。我尝试了朴素贝叶斯、随机森林和其他分类估计器,但没有太大区别。我使用方法predict_proba来获取概率,并将每次考试的分数作为特征和教师作为目标的数据集(教师被视为班级)
主要问题是,当增加更多参加的考试时,教师的概率会降低,而应该增加或不改变。
我的猜测是,该模型给出了具有这样分数的学生中最受欢迎的院系,而不是录取概率。我可以做些什么来改进模型吗?