问题:我有一个超过200GB的巨大数据集。该数据集包含大约 200 列(预测变量)。手头的任务是预测向客户推销哪种产品,以便他/她最终购买,从而使公司的收入最大化。
这是一个交叉销售的情况,但我需要查看产品推荐以及收入最大化。
据我了解,收入最大化需要回归模型。(如果我错了请纠正我)
我不知道如何推荐产品,因为有超过 2000 种独特的产品。(我觉得虚拟编码需要大量的时间和资源)。
由于数据的庞大,我计划使用 Python 来处理数据。(也欢迎对 R 提出建议)
PS:如果问题看起来太基础,请见谅,不过我刚开始学习
[更新]:
- 数据为长(窄)格式
- 我也可以使用 R 来解决这个问题
- 产品由其唯一的产品 ID 标识(2000 多个唯一的产品 ID)
- 标题:
date | time | pid | cust_id | ... | amount | tax | net_revenue
- 净收入:连续变量
- 产品 ID:连续但被视为标称
- Cust_id:连续但被视为名义上