我向 math.stackexchange提出了这个问题,但没有得到回应,我觉得它更适合这里。我正在编写一个应用程序来预测给定至少一个元组的期末考试成绩,其中元组代表练习考试的结果:
(score, exam_name, date_taken[optional])
用户输入练习考试成绩,然后输入他们的官方考试成绩(需要日期);并非所有用户都参加所有可用的练习考试。数据集可以这样表示:
每行是一个user. 第一个矩阵中的每一列都是一个特定的练习考试;第二个矩阵是期末考试的分数 ( actual) 和参加日期。第一个矩阵中的每个元素都是上述形式的元组。
用户完成任意组合的练习考试。第user4 行代表的输入了四个事件(四个模拟考试),他计划参加正式考试的日期,但不是他的实际分数;因此,我们想为他提供一个预测。
什么模型可能适合这个问题?
我有一种预感,朴素贝叶斯可能是最好的,因为矩阵的“不完整性”,并且因为我想在输入任何数据后向用户提供预测(即,用户输入没有日期的单个元组(512, mcat_24),应该仍然收到预测)。对我来说最难的问题的特点是并非所有用户都参加了所有练习考试。我不确定如何在数学上将其形式化。我正在研究这篇论文1,这可能会有所帮助。