确定班级数量

数据挖掘 机器学习 数据
2022-03-04 05:03:43

我有一个包含 1000 个标签的数据集。我想从这个数据集构建一个自定义模型,其中包含三个标签,比如DogCatOthers显然,Others这种方法的数量会很大。我知道这可能是一个问题,因为分类器已经看到了更多Others示例。

管道

大型数据集 --> 分为狗、猫和其他人 --> 分类器 --> 预测狗、猫或其他人。

在这种情况下可以采取哪些其他方法?

1个回答

一种选择是更改标签分布。如果您想与andOthers成比例,您可以随机丢弃不是and的实例DogCatDogCat

另一种选择是选择不受实例数量影响的分类器,例如支持向量机 (SVM)。

另一种选择是使用评估指标来检查单个类别级别的性能(例如,分别为DogCat、 、 的精度Others)。