如何在网站中建模和预测用户活动/在场时间

数据挖掘 机器学习 r 时间序列 回归 数据科学模型
2022-03-09 12:35:38

我需要根据网站用户登录系统的一些历史数据制作预测模型。假设我的数据集具有某些功能,例如特定用户每天的用户登录时间和注销时间。对于特定用户,一天内可以多次登录和注销。假设,如果用户一天在网站上登录 5 次,那么该用户的数据集将有五个入口点作为行,注销也是这样。现在从登录和注销时间开始,我需要找出用户登录网站的活动时间,以及预测用户在网站上不可用/不存在的非活动时间。我怎样才能做到这一点?我应该使用哪种算法以及哪种预测模型 (线性回归/逻辑回归/时间序列)在这种情况下需要选择吗?如果您能建议我专门在 R 中实现这一点,那将非常有帮助。谢谢。

编辑:

实际上,我需要找出/预测用户白天在网站上活跃的时间。我有一个包含 3 列的数据集,分别列为“user_id”、“login_time”和“logout_time”。现在我正在尝试创建另一列“active_time”,其中我试图通过从注销时间中减去登录时间来计算用户在网站中的活动时间,并且它可以是多个,因为用户可以在一天内多次访问网站。现在我需要预测用户在网站中的活跃时间,其中活跃时间是目标变量,登录、注销时间作为预测变量。我也试图为这个预测建立一个线性回归模型。但我不知道我的过程对于这个问题是否正确。谁能让我知道我需要为这个预测构建哪种类型的模型?是线性回归、逻辑回归还是时间序列?

2个回答

只是为了澄清,只要您指定非活动时间,当用户注销、未登录且不做任何事情时,您可能有几种方法。如果您将不活动定义为他们正在登录,那么您似乎没有确定它们是否处于活动状态的功能。

我首先想到的是将他们的登录和注销建模为泊松分布。因此,也许可以使用诸如泊松回归之类的东西来为您的数据拟合模型。