我有一个分类问题,我最初从 100 多个类别标签开始。我的直觉告诉我,对于模型来说,标签太多,无法准确预测。我认为将标签分组在一起会有所帮助,而且确实如此,现在只有 19 个类标签。19 类标签还是太多了吗?模型预测的标签过多的典型迹象是什么?如果有太多的类标签,如何解决这个问题?
有太多类标签的迹象
数据挖掘
机器学习
多类分类
2021-10-05 11:10:53
2个回答
类分类应该:
- 服务业务需求
- 可学习
这里有一个潜在的权衡。分类法越准确和具体,您对实体的了解就越多,您将能够更好地满足业务需求。然而,对于大型分类,分类器将不得不对更复杂的规则进行建模,每个案例的样本更少,边界样本的影响更大。
检查数据集中每个标签的样本数。没有足够样本的类标签将很难学习。如果你有很多类标签,它们中的一些比例也会很低,引入一个更难的不平衡学习问题。
使用成本矩阵,您可以评估由于合并某些类而产生的额外成本。当不区分它们的成本很低时合并类。
建立类分类法可能有助于解决许多问题。以动物为例,您可以创建动物分类 -> 爬行动物 -> 鳄鱼,然后尝试区分爬行动物与其他动物或鳄鱼与其他爬行动物。
在许多情况下,由于某些维度的笛卡尔积,您可能会获得许多类别标签。再次使用动物示例,您可能对诸如“is_flying?”、“is_carnivore?”之类的维度感兴趣。并学习它们而不是动物课程。这些维度可能会更加平衡,并且可以在一定程度上独立学习(重用样本)。不利的一面是飞行的食肉动物将是猛禽,不一定是猎鹰。
对此没有明确的答案。这取决于您的数据集的大小、您拥有的计算能力以及您获得的与类数量相比的准确性。
一些迹象或经验法则是:
- 数据集越小(数据点和特征空间维度),您可以成功管理的类标签就越少。
- 你能以多快的速度为每个班级训练你的模型?如果为所有课程添加它会导致可接受的时间,您可以保留它们。这适用于您正在训练模型以在一个与所有设置中预测类的情况。另一方面,K-means 聚类不会因类数的增加而受到显着影响。
- 您能否从所有这些类的数据集中获得良好的准确性?如果不减少它们以降低问题的复杂性。
对于每种情况,上述因素的平衡可能会给出不同的答案。
最后但并非最不重要的一点是,要保留的类的数量受为您提供数据集的特定域的影响。除了机器学习方法之外,您还应该使用领域知识来评估您是否有太多的类。
其它你可能感兴趣的问题