我需要将 URL 分类。假设我有 15 个类别,我计划将每个 URL 归零。
15路分类器更好吗?我有 15 个标签并为每个数据点生成特征。
或者构建 15 个二元分类器,比如:电影或非电影,然后使用我从这些分类中获得的数字来构建排名,选择最好的类别,会更好吗?
我需要将 URL 分类。假设我有 15 个类别,我计划将每个 URL 归零。
15路分类器更好吗?我有 15 个标签并为每个数据点生成特征。
或者构建 15 个二元分类器,比如:电影或非电影,然后使用我从这些分类中获得的数字来构建排名,选择最好的类别,会更好吗?
首先,您必须问自己您的问题是多标签(即单个 URL 可以属于多个类)还是不是(即单个 URL 只能属于一个类)。
如果是前者,请使用一组二元分类器,因为这是处理多标签问题的默认方式。
如果是后者,答案取决于您的数据看起来如何、分析的目的是什么以及您使用的是什么方法——也许您应该尝试两者并选择最佳。
请注意,某些方法(如 SVM)实际上不能进行多类分类,因为它们是如何定义的,因此在内部使用了一组二元分类器。
这将取决于您的数据是如何分散的。最近有一个漂亮的例子被给出了一个类似的问题,其中 OP 想知道单个线性判别函数是否是一个更好的分类器来决定人口 A 与 B 或 C 或一个基于分隔 A 的多个线性判别函数, B 和 C。有人给出了一个非常漂亮的彩色散点图,以显示在这种情况下使用两个判别式会比一个判别式更好。我会尝试链接到它。
例如,一些方法可以很好地处理多类、随机森林、MLP。
如果您不想那样做,那么 ECOC 可能会很好地为您的问题执行 1-vs-All,只有测试才能说明问题。