我有一个销售数据集,其中包含作为输出的二进制标签 - 我们产品的“业务赢”和“业务损失”。
我们有一组与我们开展业务的一级客户(我们称该组为千斤顶)。然后这些千斤顶将我们的产品出售给最终客户(我们称该组为玫瑰)。
这些销售数据包含销售 id、产品 id、产品名称、产品类型、细分市场(如 APAC、EMEA 等)、jack id、jack 类别、jack 地区、rose id、rose 类别、rose 地区、项目 id、项目名称等
一个千斤顶可以在多个不同的项目(相同或不同的玫瑰)中销售相同的产品。
如您所见,我的大多数输入变量本质上都是分类的。
我想了解影响业务成果的功能有哪些?那是赢还是输?
如果这是一个商业赢或输,我想知道为什么会这样(使用 Lime 或 SHAP 等)
我的问题
a) 既然有超过 100 种独特的产品,我应该为所有 100 种产品创建一个热编码变量吗?我们想了解产品是否是可以帮助我们预测业务是否可能失去或赢得业务等的功能之一?例如:订购产品 A 时,该业务有 80% 的机会亏损。这是特色之一。同样,我想获得这种详细的见解。我不想简单地知道可变产品是一个重要因素。我想知道哪种产品会导致业务亏损或盈利。希望这可以帮助
b) 我知道我们可以为区域变量创建 one-hot 编码变量,因为它只有 4 个值,例如 APAC、EMEA、GC、EUROPE 等。
c) 我在数据集中的总行数是 300K。但正如您所看到的,大多数分类变量都有 100 个唯一值。我应该如何决定它是否有一个热编码?
d) 有没有其他更好或替代的方法来做到这一点?