用户动作序列分类

数据挖掘 分类 多类分类 顺序
2022-02-15 23:23:43

我有一个训练集,其中每一行是网站上的一系列用户操作(登录、发送发票等)以及这些操作之间的时间增量(以毫秒为单位)。每行都有一个标签——一个相应的用户类(10 个类):

action132, 2340, action21, 300, ...  3
action238, 1240, action22, 350, ...  6
...
action763, 1240, action42, 750, ...  2 

比如说,我有 500 种独特的动作类型,每一行的长度都是可变的。最大序列长度为 100k,训练集中有 10k 行(10k 个用户)。

我需要预测测试集的标签。

如果我只有动作序列,这将是一个更容易理解的任务,类似于文本分类的 DNA 序列分类,通常使用 LSTM/CNN 模型或转换器来解决。但在我的问题中,这些时间增量是用户行为的良好指标,我想利用这些功能。此外,动作顺序也很重要。

解决这个问题的有效模型是什么?

1个回答

NN 是自动特征提取器,如果编码正确,它将找到您怀疑有价值的列

不必担心专门指明这些列。担心优化您的 DNN 架构。既然你说你有可变的输入长度,一种优化方法是利用动态序列分桶

没有终极理论(没有做出一些严肃的假设)说,如果只满足 X 就可以确定 Y 会击败所有其他方法,或者它会收敛。在所有阶段(模型、预处理等)尝试几种不同的方法,看看哪些方法有效。只需确保您制作了最小可行的实验环境,即代表性的训练/测试集,您可以在其中快速迭代测试不同的方法