嗨数据科学堆栈交换!我是新来的,但我熟悉一些机器学习理论(在学校上过一些课程),我的问题更多是关于如何在实际环境中应用机器学习。
我有这个项目,我正在尝试设计一个系统来预测用户将从哪个“商店”购买给定物品。但是,每个用户都知道用户可能购买的商店集合(因为此促销活动仅适用于他们注册的有限商店)。平均而言,普通用户可以购买的商店集合约为 3,但所有用户的不同商店数量约为 10000。
理论上,对于单个用户来说,这似乎是一个简单的分类问题。我们有历史信息,例如用户从商店 X 购买商品 Y 的时间/日期/月份,以及其他特征,例如用户居住的位置(邮政编码)以及与他们购买的商品类型相关的特征(成本、重量, 品牌)。
然而,问题是目前大约有 6000 个用户,所以采用这种方法似乎我需要为每个用户一个单独的模型,但这对我来说似乎不是一个有效的解决方案,或者至少不是我通常看到的 ML使用的算法。不幸的是,我没有看到任何其他方式可以考虑到用户已经可以购买的商店集合对于每个用户来说都是已知的这一事实。我想我可以将每个可购买商店的分类变量作为一个特征,但这相当于添加 10000 个特征,我不确定这是否会随着不同商店数量的增加而扩展。
如果有人对如何将机器学习技术应用于此类问题有任何见解,那将非常有帮助,因为这是我第一次处理“真实”问题。谢谢!