数据挖掘 - 大量标签的分类器 - 吾爱随笔录

数据挖掘机器学习逻辑回归朴素贝叶斯分类器

2022-02-23 11:33:57

我有一个包含 800,000 个样本和 18,000 个标签的商家数据集。每个样本都与单个标签相关联，并且标签是独立的。

一个示例样本看起来像

description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon

除了现有样本之外，数据集中还会添加新的零售商。在这种情况下，该新零售商很可能只有一个样本。

总而言之，我需要一个分类器

有没有一种方法可以同时处理这两种情况？也许两个单独的分类器更有意义？

3个回答

对于多类分类问题，有多种算法天生就能够解决这些问题。一些例子：kNN、朴素贝叶斯、决策树......

为了使所有标签的性能准确且分类器显示出小的偏差，您可以使用其他方法：您可以对少数类进行过采样或对多数类进行欠采样，以使所有标签具有与它们相关联的相同数量的点.

在这里，您可以找到一些关于如何对抗决策树分类中的类不平衡的有趣答案：https ://stats.stackexchange.com/questions/28029/training-a-decision-tree-against-unbalanced-data

kNN 是一个惰性评估问题，在生产中需要一些时间来预测。分类器真的取决于问题

对于不平衡，您可以执行以下操作：欠采样、过采样。您也可以在构建分类器时使用 class_weight 参数检查https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

我认为您的问题是少数学习问题。有关此主题的文章可能对您有所帮助。

您可以在此处查看该主题的简要介绍。

其它你可能感兴趣的问题