机器算法验证 - 构建一个多类分类器是否比几个二元分类器更好？ - 吾爱随笔录

构建一个多类分类器是否比几个二元分类器更好？

机器算法验证机器学习分类分类数据支持向量机特征选择

2022-01-20 03:41:15

我需要将 URL 分类。假设我有 15 个类别，我计划将每个 URL 归零。

15路分类器更好吗？我有 15 个标签并为每个数据点生成特征。

或者构建 15 个二元分类器，比如：电影或非电影，然后使用我从这些分类中获得的数字来构建排名，选择最好的类别，会更好吗？

3个回答

首先，您必须问自己您的问题是多标签（即单个 URL 可以属于多个类）还是不是（即单个 URL 只能属于一个类）。

如果是前者，请使用一组二元分类器，因为这是处理多标签问题的默认方式。

如果是后者，答案取决于您的数据看起来如何、分析的目的是什么以及您使用的是什么方法——也许您应该尝试两者并选择最佳。
请注意，某些方法（如 SVM）实际上不能进行多类分类，因为它们是如何定义的，因此在内部使用了一组二元分类器。

这将取决于您的数据是如何分散的。最近有一个漂亮的例子被给出了一个类似的问题，其中 OP 想知道单个线性判别函数是否是一个更好的分类器来决定人口 A 与 B 或 C 或一个基于分隔 A 的多个线性判别函数， B 和 C。有人给出了一个非常漂亮的彩色散点图，以显示在这种情况下使用两个判别式会比一个判别式更好。我会尝试链接到它。

例如，一些方法可以很好地处理多类、随机森林、MLP。

如果您不想那样做，那么 ECOC 可能会很好地为您的问题执行 1-vs-All，只有测试才能说明问题。

其它你可能感兴趣的问题

上一篇使用多重插补时如何组合混合效应模型的方差分量的置信区间下一篇如何在多个时间序列数据上训练 LSTM 模型？