我正在尝试提出一个公式或机器学习算法,使用它我可以大致预测每周或每月的用户。
要记住的是,我已经计算了一周/月内每天的唯一身份访问者数量,我想做出接近准确的预测。在这里,简单地将每日唯一用户相加是行不通的,因为他们可以在一天内是唯一的,但不是在两天内是唯一的,因为他们的会话可以持续超过 2 天。
此方法可作为对整周/月数据运行 Spark 作业的替代方法,以节省时间和资源 - 这可能吗?
我已经查看了时间序列和线性回归,但需要对可能的方法以及任何变通方法进行更多说明?
我正在尝试提出一个公式或机器学习算法,使用它我可以大致预测每周或每月的用户。
要记住的是,我已经计算了一周/月内每天的唯一身份访问者数量,我想做出接近准确的预测。在这里,简单地将每日唯一用户相加是行不通的,因为他们可以在一天内是唯一的,但不是在两天内是唯一的,因为他们的会话可以持续超过 2 天。
此方法可作为对整周/月数据运行 Spark 作业的替代方法,以节省时间和资源 - 这可能吗?
我已经查看了时间序列和线性回归,但需要对可能的方法以及任何变通方法进行更多说明?
要根据每天的计数计算每月/每周唯一访问者的(估计)值,您可以使用HyperLogLog算法。
这将为您提供历史值,您可以使用任何时间序列方法来预测未来计数
您不能仅根据每天的唯一身份访问者数量进行追溯。如果您按组表示每天的唯一用户,联合可以小到,如果所有集合都相等,或者一样大如果 all 设置成对不相交。
如果您可以估计用户每月访问该网站的平均天数 r(超过至少访问过一次的用户),那么恰好有当月的唯一身份访问者。
正如 Marmite Bomber 所建议的,从新的在线数据开始,一个很好的正确方法是使用 Hyperloglog 或其他内存高效的近似计数算法。
我不知道您在哪个行业工作,但由于您无法控制的因素,预测唯一用户有时可能很困难。例如,如果您的公司尝试针对新细分市场进行新的广告活动,则很难计算范围,因为它们是与您先前定义的规则集交互的新生态系统。