我想预测未来的用户活动(例如,帐户取消),但我不知道我应该如何表示数据。
原始数据是所有用户的所有活动的序列:
2015-01-01T04:04|user1|created account
2015-01-01T05:04|user2|created account
2015-01-01T06:04|user1|changed plan
2015-01-01T07:04|user2|changed plan
2015-01-01T08:04|user1|cancelled submission
在最简单的预测中,我想将用户标记为 0=Cancelled 和 1=Not Cancelled,然后为这个标签训练一个分类器。
问题是我将如何为机器学习算法(例如 SVM 或逻辑回归)准备数据?我现在每个用户有多行,按它们发生的时间排序,但我正在考虑每个用户只有一行。我将如何代表这些活动?此外,每个用户的活动数量不受限制(1 到n几乎n不会超过10),每个活动的特征数量可以很大(最多 100 个特征)。
如果有人可以在这里帮助我,我将不胜感激:-)
谢谢