如何选择分类器

数据挖掘 分类 集成建模
2022-03-15 14:35:51

是创建最准确分类器来训练一堆分类算法(如 ANN、SVM、KNN 等)并测试不同参数以获得每个分类器的最佳参数的最佳方法,并查看哪个分类器的测试误差最小?

还是使用集成方法并选择不同类型的训练分类器的“多数”决策更好?

1个回答

通常不是那么明确。通常没有一种普遍适用的最佳方法。

话虽如此,有一些原型集成方法应该总是比它们的底层组件算法更好,特别是 Erin LeDell 的 H2O 二进制集成分类器。但是,即使在这些情况下,您仍然需要优化第一阶段算法以使整体更好。

因此,如果您愿意花很多额外的时间,比如说 2 周的集成而不是 1 周的单阶段算法,那么有可能(尤其是二进制分类)找到集成这肯定会比你的单阶段分类器更好。

但是,这种情况很少见,您提出问题的方式意味着可以选择

  1. 构建 1 个非常好的单阶段模型,从许多候选模型中选择(顺便说一下,在进行这些选择时要避免过度拟合)和

  2. 在没有完成上述每个合奏组件的#1(或完成#1但也没有优化合奏的第二阶段)的情况下,在问题上抛出一个合奏

如果那是决定那么 - 虽然没有 1 个普遍正确的答案 - 我会说在绝大多数情况下最好坚持#1。