数据挖掘 - 确定班级数量 - 吾爱随笔录

数据挖掘机器学习数据

2022-03-04 05:03:43

我有一个包含 1000 个标签的数据集。我想从这个数据集构建一个自定义模型，其中包含三个标签，比如Dog、Cat和Others。显然，Others这种方法的数量会很大。我知道这可能是一个问题，因为分类器已经看到了更多Others示例。

管道

大型数据集 --> 分为狗、猫和其他人 --> 分类器 --> 预测狗、猫或其他人。

在这种情况下可以采取哪些其他方法？

1个回答

一种选择是更改标签分布。如果您想与andOthers成比例，您可以随机丢弃不是and的实例。DogCatDogCat

另一种选择是选择不受实例数量影响的分类器，例如支持向量机 (SVM)。

另一种选择是使用评估指标来检查单个类别级别的性能（例如，分别为Dog、Cat、、的精度Others）。

其它你可能感兴趣的问题