当该周/月的独立每日访问者已知时,如何预测近似的每周/每月数量

数据挖掘 机器学习 预测建模 回归 时间序列 阿帕奇火花
2022-03-13 10:53:25

我正在尝试提出一个公式或机器学习算法,使用它我可以大致预测每周或每月的用户。

要记住的是,我已经计算了一周/月内每天的唯一身份访问者数量,我想做出接近准确的预测。在这里,简单地将每日唯一用户相加是行不通的,因为他们可以在一天内是唯一的,但不是在两天内是唯一的,因为他们的会话可以持续超过 2 天。

此方法可作为对整周/月数据运行 Spark 作业的替代方法,以节省时间和资源 - 这可能吗?

我已经查看了时间序列和线性回归,但需要对可能的方法以及任何变通方法进行更多说明?

3个回答

要根据每天的计数计算每月/每周唯一访问者的(估计)值,您可以使用HyperLogLog算法。

这将为您提供历史值,您可以使用任何时间序列方法来预测未来计数

您不能仅根据每天的唯一身份访问者数量进行追溯。如果您按组表示每天的唯一用户A1,A2,,An,联合可以小到|A1|,如果所有集合都相等,或者一样大|A1|++|An|如果 all 设置成对不相交。

如果您可以估计用户每月访问该网站的平均天数 r(超过至少访问过一次的用户),那么恰好有(|A1|++|An|)/r当月的唯一身份访问者。

正如 Marmite Bomber 所建议的,从新的在线数据开始,一个很好的正确方法是使用 Hyperloglog 或其他内存高效的近似计数算法。

我不知道您在哪个行业工作,但由于您无法控制的因素,预测唯一用户有时可能很困难。例如,如果您的公司尝试针对新细分市场进行新的广告活动,则很难计算范围,因为它们是与您先前定义的规则集交互的新生态系统。