每个组内的预测/分类(多类/多标签)

数据挖掘 机器学习 分类 预测建模
2022-02-23 10:18:26

我想对特定产品类别(数据集中> 100)中的产品列表(数据集中> 1000)进行预测。

例子:

  1. 选择产品类别(1个或多个):水果、蔬菜或更多;
  2. 模型做出预测并可能返回:
  • 水果:香蕉、苹果、草莓;
  • 蔬菜:胡萝卜、洋葱、土豆;

假设:

  • 用户输入的产品类别和预测将在这个或多个组内发生(重要的是在结果中返回所有这些);

潜在的解决方案:

  • 关于产品分类,我考虑了多类分类(One vs Rest 或 One vs One => 但是,恐怕它需要大量的计算能力和时间)
  • 棘手的部分是在一个类别内进行预测,这是否意味着我需要为每个类别建立一个单独的模型
1个回答

以下是一些示例数据,仅限于 >1000 个示例中的少数示例。第一张图片是表格的彩色打印屏幕,以突出显示不同的类别:主要、宏观、微观类别,图片下方是原始数据。目标是:

  1. 用户输入两个(可以是一个甚至全部)宏类别(例如柑橘和绿叶)
  2. 对于这些宏类别(已输入),模型返回最佳匹配
  3. 恐怕如果我在整个数据集上训练模型(RF 或 SVM),使用宏类别和微类别作为模型中的不同特征 -> 模型可以预测与宏观类别无关的微类别(例如,我结果会得到橘子(柑橘),但我只输入了浆果和甜瓜的模型)。

在此处输入图像描述

主类 宏类 微类 表现 用法 经验
水果 浆果  蓝莓 1 0.5 6.05
水果 浆果  山莓 2 1 12.1
水果 浆果  枸杞 3 1.5 18.15
水果 浆果  草莓 4 2 24.2
水果 浆果  越橘 5 2.5 30.25
水果 浆果  巴西莓 6 3 36.3
水果 浆果  蔓越莓 7 3.5 42.35
水果 浆果  葡萄 8 4 48.4
水果 柑橘 橘子 21 10.5 127.05
水果 柑橘 柚子 23 11.5 139.15
水果 柑橘 橘子 25 12.5 151.25
水果 柑橘 青柠 27 13.5 163.35
水果 核果 油桃 6 3 36.3
水果 核果 杏子 7 3.5 42.35
水果 核果 桃子 8 4 48.4
水果 核果 李子 9 4.5 54.45
水果 瓜类 西瓜 2 1 12.1
水果 瓜类 甜瓜 3 1.5 18.15
水果 瓜类 蜜瓜 4 2 24.2
蔬菜 绿叶 莴苣 25 12.5 151.25
蔬菜 绿叶 菠菜 27 13.5 163.35
蔬菜 绿叶 银甜菜 6 3 36.3
蔬菜 十字花科 卷心菜 7 3.5 42.35
蔬菜 十字花科 菜花 8 4 48.4
蔬菜 十字花科 球芽甘蓝 25 12.5 151.25
蔬菜 十字花科 西兰花 27 13.5 163.35
蔬菜 骨髓 南瓜 6 3 36.3
蔬菜 骨髓 黄瓜 7 3.5 42.35
蔬菜 骨髓 夏南瓜 8 4 48.4
蔬菜 葱属 洋葱 5 2.5 30.25
蔬菜 葱属 大蒜 6 3 36.3
蔬菜 葱属 7 3.5 42.35