我对 ML 比较陌生,所以如果我的问题表明缺乏对该领域的了解,我会提前道歉。
问题
一个特定的学习课程有很高的辍学率,我们想减少它。
数据集
我们有两个数据集:
- 关于学生本身的数据(例如,初始能力测试得分、人口统计)。该数据集包括要预测的特征。例如
ID, AGE, RESULT_TEST1, RESULT_TEST2,DROPPED_OUT
AAAA, 21, 0.6, 0.4, TRUE
BBBB, 20, 0.3, 0.9, FALSE
- 学生在课程期间参加的考试。该数据集包含有关考试类型(例如科目、复杂程度)和学生获得的结果的数据。有些考试是必需的,有些是强制性的,有些可以自愿参加。也就是说,每个学生都可以参加任意的考试列表。例如
ID, EXAM_ID, EXAM_COMPLEXITY, EXAM_SCORE
AAAA, XXXXX, 0.8, 0.4
BBBB, YYYYY, 0.2, 0.8
目标
这个想法是使用 ML 来使用历史数据计算特定学生在课程期间辍学的可能性。系统应该能够根据这两个数据集预测学生辍学的可能性有多大,以便我们给予他/她更多的支持。
挑战
如何结合这两个数据集来训练模型?我可以创建一个连接两者的超集,但我会用什么来预测结果?
例如,如果我训练模型:
ID, AGE, RESULT_TEST1, RESULT_TEST2, EXAM_ID, EXAM_COMPLEXITY, EXAM_SCORE
AAAA, 21, 0.6, 0.4,XXXXX, 0.8, 0.4
BBBB, 20, 0.3, 0.9,YYYYY, 0.2, 0.8
我如何预测DROPPED_OUT通过新学生(多个样本)的所有数据的可能性?
任何解释或指向文档将不胜感激。
先感谢您。
亚历克斯