一类、二类和多项分类之间的区别在哪里?
如果我喜欢将文本分类为四个类,并且还希望系统能够告诉我这些类都不匹配未知/未经训练的测试数据。
难道我不能使用上面提到的所有方法来达到我的目标吗?例如,我可以将 C1、C2、C3 和 C4 描述为用于二进制分类的四个不同训练集,并使用训练后的模型来标记未知数据集......
简单地说,C1 的训练集包含 1 类(C1 的所有好样本)和 0 类(所有 C2、C3 和 C4 的混合作为 C1 的坏样本)。
是未标记数据 C1 -> 1 或 0
是未标记的数据 C2 -> 1 或 0 ...等等...
对于多项分类,我可以只定义一个训练集,其中包含一个训练集中 C1、C2、C3 和 C4 的所有良好样本数据,然后使用一个生成的模型进行分类......
但这两种方法的区别在哪里?(除了我必须使用不同的算法)
我将如何为所描述的使用一类分类对这四个类中的数据进行分类的问题定义一个训练集(这甚至可能)?
如果我的想法完全错误,请原谅。希望得到一个能让我更清楚地了解方法的答案=)