重构“双向”不平衡的多标签分类

数据挖掘 分类 多标签分类
2022-02-14 09:32:40

在询问“样本是否属于此类”时考虑多标签问题,例如,电影标签数据集由于该标签的模糊性,几乎每部电影都被标记为“戏剧”。它也有一些罕见的标签,如“法国 60 年代后期黑色”。

为了提高召回率并保持与大多数分类器的兼容性,我们可以为每个标签单独重新采样和训练一个二元分类器(戏剧:是/否,黑色:是/否)。

但是,虽然“法国 60 年代后期的黑色电影”可能是 0.05:0.95 的不平衡,模型需要付出很大的努力才能猜测,但“戏剧”类别的应用如此广泛,以至于问题正好相反,即 0.95:0.05。

既然“目标类别”是 95% 的标签(与定义有冲突),那么逻辑上最好的人应该如何继续保持召回而不是精度?对非目标类进行上采样?对目标类进行下采样?将问题重新定义为“不是戏剧”以保持每个标签的不平衡?

1个回答

我不认为有任何明显的最佳选择。我建议尝试一些合理的解决方案,对开发集进行评估,然后选择性能最佳的解决方案。不要忘记尝试使用原始数据,重新采样并不总是效果更好。

对非目标类进行上采样?对目标类进行下采样?

这两个选项很可能给出相同的结果(假设您使用相同的比例)。

将问题重新定义为“不是戏剧”以保持每个标签的不平衡?

对于分类器来说,它是完全相同的。