我有一个包含 1000 个标签的数据集。我想从这个数据集构建一个自定义模型,其中包含三个标签,比如Dog、Cat和Others。显然,Others这种方法的数量会很大。我知道这可能是一个问题,因为分类器已经看到了更多Others示例。
管道
大型数据集 --> 分为狗、猫和其他人 --> 分类器 --> 预测狗、猫或其他人。
在这种情况下可以采取哪些其他方法?
我有一个包含 1000 个标签的数据集。我想从这个数据集构建一个自定义模型,其中包含三个标签,比如Dog、Cat和Others。显然,Others这种方法的数量会很大。我知道这可能是一个问题,因为分类器已经看到了更多Others示例。
管道
大型数据集 --> 分为狗、猫和其他人 --> 分类器 --> 预测狗、猫或其他人。
在这种情况下可以采取哪些其他方法?
一种选择是更改标签分布。如果您想与andOthers成比例,您可以随机丢弃不是and的实例。DogCatDogCat
另一种选择是选择不受实例数量影响的分类器,例如支持向量机 (SVM)。
另一种选择是使用评估指标来检查单个类别级别的性能(例如,分别为Dog、Cat、 、 的精度Others)。