数据挖掘 - 当该周/月的独立每日访问者已知时，如何预测近似的每周/每月数量 - 吾爱随笔录

数据挖掘机器学习预测建模回归时间序列阿帕奇火花

2022-03-13 10:53:25

我正在尝试提出一个公式或机器学习算法，使用它我可以大致预测每周或每月的用户。

要记住的是，我已经计算了一周/月内每天的唯一身份访问者数量，我想做出接近准确的预测。在这里，简单地将每日唯一用户相加是行不通的，因为他们可以在一天内是唯一的，但不是在两天内是唯一的，因为他们的会话可以持续超过 2 天。

此方法可作为对整周/月数据运行 Spark 作业的替代方法，以节省时间和资源 - 这可能吗？

我已经查看了时间序列和线性回归，但需要对可能的方法以及任何变通方法进行更多说明？

3个回答

要根据每天的计数计算每月/每周唯一访问者的（估计）值，您可以使用HyperLogLog算法。

这将为您提供历史值，您可以使用任何时间序列方法来预测未来计数

您不能仅根据每天的唯一身份访问者数量进行追溯。如果您按组表示每天的唯一用户 $A_1, A_2, \dots, A_n$ ，联合可以小到 $|A_1|$ ，如果所有集合都相等，或者一样大 $|A_1| + \dots + |A_n|$ 如果 all 设置成对不相交。

如果您可以估计用户每月访问该网站的平均天数 r（超过至少访问过一次的用户），那么恰好有 $(|A_1| + \dots + |A_n|)/r$ 当月的唯一身份访问者。

正如 Marmite Bomber 所建议的，从新的在线数据开始，一个很好的正确方法是使用 Hyperloglog 或其他内存高效的近似计数算法。

我不知道您在哪个行业工作，但由于您无法控制的因素，预测唯一用户有时可能很困难。例如，如果您的公司尝试针对新细分市场进行新的广告活动，则很难计算范围，因为它们是与您先前定义的规则集交互的新生态系统。

其它你可能感兴趣的问题