数据挖掘 - 更多课程是否比单个组合课程更有利？ - 吾爱随笔录

数据挖掘分类 scikit-学习多类分类

2022-03-11 19:31:21

想象以下场景。

训练一个分类器，将对象分类为以下 n+m 个类之一：

class 1..n     -> triggers an action A depending on the predicted class p
class n+1..n+m -> triggers an action X independent on the prediction

使用的CalibratedClassifierCV是LinearSVC的scikit-learn。因此，预测基于最大值predict_proba。

问题

因为动作 X 独立于预测，所以我很想将 m 个类 (n+1, n+2, ..., n+m) 组合成一个类（以提高训练速度、分类速度、内存消耗ETC。）

这会损害分类结果吗？

1个回答

所以你感兴趣的（在预测方面）是 $n+1$ 类，最后一课是 $m=1$ . 这将是我的默认模型。换句话说，我不明白你为什么应该拥有 $m$ 如果这些结果与您的任务无关，则需要额外的结果。

对于预测的质量，特征 $X$ 最重要。我不知道这些类是相关的，不像你的结果（=类）有一个命令。

但是，最终您需要测试哪个模型表现最好。因此，根据简约原则，从一个简单的模型开始，然后逐渐查看增加复杂性是否会产生更好的结果（通过预定义的度量，例如准确性）。

其它你可能感兴趣的问题