我有一个训练集,其中每一行是网站上的一系列用户操作(登录、发送发票等)以及这些操作之间的时间增量(以毫秒为单位)。每行都有一个标签——一个相应的用户类(10 个类):
action132, 2340, action21, 300, ... 3
action238, 1240, action22, 350, ... 6
...
action763, 1240, action42, 750, ... 2
比如说,我有 500 种独特的动作类型,每一行的长度都是可变的。最大序列长度为 100k,训练集中有 10k 行(10k 个用户)。
我需要预测测试集的标签。
如果我只有动作序列,这将是一个更容易理解的任务,类似于文本分类的 DNA 序列分类,通常使用 LSTM/CNN 模型或转换器来解决。但在我的问题中,这些时间增量是用户行为的良好指标,我想利用这些功能。此外,动作顺序也很重要。
解决这个问题的有效模型是什么?