预测/ML 的用户活动表示

数据挖掘 机器学习 预处理
2022-03-03 10:42:48

我想预测未来的用户活动(例如,帐户取消),但我不知道我应该如何表示数据。

原始数据是所有用户的所有活动的序列:

2015-01-01T04:04|user1|created account
2015-01-01T05:04|user2|created account
2015-01-01T06:04|user1|changed plan
2015-01-01T07:04|user2|changed plan
2015-01-01T08:04|user1|cancelled submission

在最简单的预测中,我想将用户标记为 0=Cancelled 和 1=Not Cancelled,然后为这个标签训练一个分类器。

问题是我将如何为机器学习算法(例如 SVM 或逻辑回归)准备数据?我现在每个用户有多行,按它们发生的时间排序,但我正在考虑每个用户只有一行。我将如何代表这些活动?此外,每个用户的活动数量不受限制(1 到n几乎n不会超过10),每个活动的特征数量可以很大(最多 100 个特征)。

如果有人可以在这里帮助我,我将不胜感激:-)

谢谢

0个回答
没有发现任何回复~