我有一个市场交易数据集,包括时间戳和商品如下。
约翰总是在超市买牛奶和面包。除此之外,他还购买了一些商品,如下所示:
- 星期一,约翰买了牛奶、面包{啤酒、巧克力}。
- 周二,约翰买了牛奶、面包{土豆}。
- 周三,约翰买了牛奶、面包{巧克力、鳄梨、花生}。
我们能否回答这个问题:“他星期四会买什么?”。
例如:他会在星期四买{啤酒,鳄梨}除了牛奶和面包。
我应该使用哪一个?有监督或无监督。
在这种情况下,我可以使用哪种模型来预测一组商品?
我有一个市场交易数据集,包括时间戳和商品如下。
约翰总是在超市买牛奶和面包。除此之外,他还购买了一些商品,如下所示:
我们能否回答这个问题:“他星期四会买什么?”。
例如:他会在星期四买{啤酒,鳄梨}除了牛奶和面包。
我应该使用哪一个?有监督或无监督。
在这种情况下,我可以使用哪种模型来预测一组商品?
由于您手头有交易数据集,因此我们在这里讨论的是明确的监督学习。虽然你当然可以尝试使用神经网络,但我认为你应该从更简单的开始,一旦看到简单的算法失败(这通常是个好主意),就应该转向更复杂和成本更高的算法。
现在形成您所描述的内容,您有某种时间序列数据,以及您想要预测的分类数量,您将需要某种修改后的ARMA 模型. 您可以为您感兴趣的每种商品(即啤酒、巧克力、土豆等)设置逻辑回归,以预测他是否会购买该产品。您输入模型的变量是一组二元观察结果,描述他是否在一天前、一周前、四周前等购买了产品。玩弄这些滞后。这里关于逻辑回归的好处是您会立即看到购买的时间段。如果你看到一周前变量的系数很大,你就知道他每周都吃鳄梨,依此类推。请注意,如果某个东西是每周购买一次,那么它也是每四个星期购买一次,因此您会遇到一些相关性问题。
如果您没有得到不错的预测,您可以尝试不同的模型,例如树或集成方法,例如随机森林或增强树。如果这些也不起作用,您可能有一个没有明确周期性的时间序列。在这种情况下,您可以尝试以不同方式设置变量,例如使用他购买产品后的天数。
最后一句话:您可能想检查购买之间的相关性。也许他会一起购买鳄梨、番茄和洋葱来制作美味的鳄梨酱。如果他有一些剩余的洋葱,他可能会倾向于购买更多的鳄梨等等。