大量标签的分类器

数据挖掘 机器学习 逻辑回归 朴素贝叶斯分类器
2022-02-23 11:33:57

我有一个包含 800,000 个样本和 18,000 个标签的商家数据集。每个样本都与单个标签相关联,并且标签是独立的。

一个示例样本看起来像

description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon

除了现有样本之外,数据集中还会添加新的零售商。在这种情况下,该新零售商很可能只有一个样本。

总而言之,我需要一个分类器

  1. 处理大量标签(约 18,000 个,独立,每个样本单个标签)
  2. 能够对样本不足​​的标签进行分类(即单个零售商)

有没有一种方法可以同时处理这两种情况?也许两个单独的分类器更有意义?

3个回答

对于多类分类问题,有多种算法天生就能够解决这些问题。一些例子:kNN、朴素贝叶斯、决策树......

为了使所有标签的性能准确且分类器显示出小的偏差,您可以使用其他方法:您可以对少数类进行过采样或对多数类进行欠采样,以使所有标签具有与它们相关联的相同数量的点.

在这里,您可以找到一些关于如何对抗决策树分类中的类不平衡的有趣答案:https ://stats.stackexchange.com/questions/28029/training-a-decision-tree-against-unbalanced-data

kNN 是一个惰性评估问题,在生产中需要一些时间来预测。分类器真的取决于问题

对于不平衡,您可以执行以下操作:欠采样、过采样。您也可以在构建分类器时使用 class_weight 参数检查https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

我认为您的问题是少数学习问题。有关此主题的文章可能对您有所帮助。

您可以在此处查看该主题的简要介绍