使用在线零售 II 数据集(https://archive.ics.uci.edu/ml/datasets/Online+Retail+II),我试图预测每个客户何时下订单,如果可能的话,货币这些订单的价值。这将是一个真正的在线零售店的概念证明,我将可以在其中访问更多的数据/功能。
当前数据集包含以下属性:
- InvoiceNo : 发票编号。标称。唯一分配给每笔交易的 6 位整数。如果此代码以字母“c”开头,则表示取消。
- StockCode:产品(项目)代码。标称。唯一分配给每个不同产品的 5 位整数。
- 描述:产品(项目)名称。标称。
- 数量:每笔交易的每个产品(项目)的数量。数字。
- InvoiceDate:发票日期和时间。数字。生成交易的日期和时间。
- 单价:单价。数字。以英镑为单位的产品价格。
- CustomerID:客户编号。标称。唯一分配给每个客户的 5 位整数。
- 国家:国家名称。标称。客户所在国家/地区的名称。
我目前的直觉是将数据建模为每日时间序列,输出当天可能订购的客户以及这些订单的价值(如果可能的话?)。输出要么是一个稀疏的、单热编码的 shape 矩阵num_customers X num_customers,要么是一个更密集的大小向量num_customers(可能有成千上万的客户)。我不太确定如何,或者即使模型也能够输出订单的数量。该模型可能会被输入到 LSTM 网络或类似网络中。我想这将被视为多元时间序列预测(仍在此处学习)?
由此,我希望能够对下一年的每一天进行预测,以预测下一个订单日期、客户价值和客户流失风险
由于这是将人类行为建模为时间序列的尝试,没有从一天到下一天的直接相关性(与预测每日温度或股票价格相反),并且有这么多变量,我也很担心会像不可预测的噪音一样消失。
- 无论如何,我在正确的轨道上吗?(任何见解将不胜感激)
- 这是否应该分成多个模型,如果是,有多少?
- 有没有人有任何提示,或者知道可以为我指明正确方向的好文章或教程?
- one-hot 编码矩阵与 multi-hot 编码向量的优点是什么(不确定这是否是正确的名称)?
谢谢!