我想预测一个产品属于哪个产品类别。总共有 400k 产品需要从旧的(不太精炼的)转换到新的产品类别树。(例如,闹钟过去属于“电子产品”,现在属于“闹钟”。)到目前为止,36k 产品已经部分分配到约 400 个(800 个)新产品类别中。填充率从 1% 到 95% 不等。
产品数据(除其他外)包含变量:名称、描述、价格、尺寸、颜色和旧标签。这个想法是通过标记化 -> TF-IDF 从非结构化变量中构建特征。
建议的方法:
- 在标记数据上训练一个多标签预测模型(例如 Ridge 分类 + 分层 CV)。然后仅根据旧产品树预测包含所有可能产品的子集的类别。(例如,预测未标记的“电子产品”产品是否为“闹钟”)
- 基于预测的概率,将未标记的产品呈现给内容管理器,如果被标记,将导致最高的信息增益。
- 建议应将剩余的 400 个类别扩展到哪些范围(例如 60%)以及首先标记哪些产品。
您首选的方法是什么?