我正在使用一个数据集来检查学生在 MOOC(大规模开放在线课程)中的努力与学生成功之间的关系。数据集非常大,有 641 138 行。每行代表一个人以及他们与他们注册的 MOOC(课程)的(汇总)交互。由于缺少数据值,并非所有行都可以用于分析。该数据集包含 16 个 MOOC 的数据。
关于努力,有变量表示学生与 MOOC 互动的次数、他们与 MOOC 互动的天数、他们互动的章节数、他们在论坛上写的次数以及他们观看视频的次数。作为学生成功与否的衡量标准,我想用他们是否获得证书(就像通过或失败课程一样)。
所以我想运行一个逻辑回归,其中因变量是经过认证的(真/假),我使用一个(或多个?)自变量来代表学生的努力。我还想控制数据集中可用的一些人口统计变量,方法是将它们作为自变量添加到逻辑回归中:年龄、性别、国家(出于匿名原因,有时在数据集中以汇总形式提供)和教育水平.
解决这个问题,我仍然不清楚一些事情:
- 如何选择应该代表学生努力的一个(或多个)自变量?(我想有些会是强相关的,所以可能不适合组合使用。)
- 是否可以通过将 course_id 作为附加自变量添加到逻辑回归来控制课程 (MOOC) 之间的差异?(这个选项似乎产生了更高的预测精度和更好的模型拟合。)
如果在上面的描述中不清楚,下面是逻辑回归命令的示例(在 R 中),其中我将章节数作为表示努力的自变量,人口统计变量作为自变量包括在内,以及 course_id已作为自变量包含在内以控制课程 (MOOC) 差异:
fit <- glm(certified~nchapters+final_cc_cname_DI+LoE_DI+YoB+gender+course_id,
na.action=na.omit, data=ds, family=binomial)
编辑:为了澄清,我正在研究上述问题,因为我正在为多元定量研究方法课程写一篇关于它的论文。本课程的重点是心理学研究中常用的第一代多元分析。