更多课程是否比单个组合课程更有利?

数据挖掘 分类 scikit-学习 多类分类
2022-03-11 19:31:21

想象以下场景。

训练一个分类器,将对象分类为以下 n+m 个类之一:

class 1..n     -> triggers an action A depending on the predicted class p
class n+1..n+m -> triggers an action X independent on the prediction

使用的CalibratedClassifierCVLinearSVCscikit-learn因此,预测基于最大值predict_proba

问题

因为动作 X 独立于预测,所以我很想将 m 个类 (n+1, n+2, ..., n+m) 组合成一个类(以提高训练速度、分类速度、内存消耗ETC。)

这会损害分类结果吗?

1个回答

所以你感兴趣的(在预测方面)是n+1类,最后一课是m=1. 这将是我的默认模型。换句话说,我不明白你为什么应该拥有m如果这些结果与您的任务无关,则需要额外的结果。

对于预测的质量,特征X最重要。我不知道这些类是相关的,不像你的结果(=类)有一个命令。

但是,最终您需要测试哪个模型表现最好。因此,根据简约原则,从一个简单的模型开始,然后逐渐查看增加复杂性是否会产生更好的结果(通过预定义的度量,例如准确性)。