我试图根据逻辑回归模型的某些特征来预测学生的成功或失败。为了提高模型的性能,我已经考虑过根据明显的差异将学生分成不同的组,并为每个组建立单独的模型。但我认为通过考试可能很难识别这些群体,所以我想通过对学生的特征进行聚类来划分学生。这是构建此类模型的常见做法吗?您是否建议我将其分解为明显的组(例如,第一学期学生与返校学生),然后对这些组进行聚类,或者从一开始就进行聚类?
试图澄清:我的意思是我正在考虑使用聚类算法将我的逻辑回归训练集分成几组。然后,我将对这些组中的每一个进行单独的逻辑回归。然后,当使用逻辑回归来预测学生的结果时,我会根据他们最适合的群体来选择要使用的模型。
也许我可以通过包含一个组标识符来做同样的事情,例如,如果学生返回,则返回 1,否则返回 0。
现在您让我思考,将训练数据集聚类并将其聚类标签用作逻辑回归中的特征,而不是为每个总体构建单独的逻辑回归模型是否有利。
如果为返校生和新生包含组标识符很有用,那么扩展组列表是否也有用?聚类似乎是一种自然的方式来做到这一点。
我希望这很清楚...