我有一个包含 800,000 个样本和 18,000 个标签的商家数据集。每个样本都与单个标签相关联,并且标签是独立的。
一个示例样本看起来像
description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon
除了现有样本之外,数据集中还会添加新的零售商。在这种情况下,该新零售商很可能只有一个样本。
总而言之,我需要一个分类器
- 处理大量标签(约 18,000 个,独立,每个样本单个标签)
- 能够对样本不足的标签进行分类(即单个零售商)
有没有一种方法可以同时处理这两种情况?也许两个单独的分类器更有意义?