多标签分类:预测产品类别

机器算法验证 机器学习 分类 多项分布 匹配 多类
2022-03-14 23:51:56

我想预测一个产品属于哪个产品类别。总共有 400k 产品需要从旧的(不太精炼的)转换到新的产品类别树。(例如,闹钟过去属于“电子产品”,现在属于“闹钟”。)到目前为止,36k 产品已经部分分配到约 400 个(800 个)新产品类别中。填充率从 1% 到 95% 不等。

产品数据(除其他外)包含变量:名称、描述、价格、尺寸、颜色和旧标签。这个想法是通过标记化 -> TF-IDF 从非结构化变量中构建特征。

建议的方法:

  1. 在标记数据上训练一个多标签预测模型(例如 Ridge 分类 + 分层 CV)。然后仅根据旧产品树预测包含所有可能产品的子集的类别。(例如,预测未标记的“电子产品”产品是否为“闹钟”)
  2. 基于预测的概率,将未标记的产品呈现给内容管理器,如果被标记,将导致最高的信息增益。
  3. 建议应将剩余的 400 个类别扩展到哪些范围(例如 60%)以及首先标记哪些产品。

您首选的方法是什么?

1个回答

由于您有大约 800 个类别作为分类变量,据我了解,分类的准确性可以通过比单独的岭回归模型更好的模型来提高。具有多层的神经网络可以更熟练,您也可以构建模型集合以达到最终分类。

文本数据还可用于基于关联度量进行分组,以基于文本关联得出类变量。另一个变量可以是包含可以聚集在一起的产品的聚集变量。这两条信息可以帮助最终模型在将产品分配到特定类别之前更好地描述产品。希望它有所帮助,一切顺利:)