随着时间的推移......这个问题的模型视图的合理分布是什么?

数据挖掘 统计数据 数据科学模型
2021-09-25 21:54:49

对不起,自我引用的标题;)

我很想知道什么是可以用来建模的曲线——在(比如)周*的范围内——在线报纸的单个新闻页面在网页浏览量方面的“参与生命周期”。相同的模型也可以应用于 Stack Exchange 问题视图!

我直观地建模的是访问的初始峰值,因为一个新的页面非常明显,因为它链接在主页中(也触发社交媒体转发),然后是长期访问行为,例如由于该页面从其他网页的链接或通过搜索引擎到达。

一种可能的方法是两个泊松过程的总和(在一些典型的特征时间后第一次关闭)。

另一种可能性是使用诸如指数衰减之类的东西来捕捉兴趣随时间的衰减(内容的“新鲜度”会消失,公共利益也会消失)。

有没有人知道更好的替代方案或文献?

*我不会模拟昼夜或每周的季节性。

2个回答

通过查看文献来看待这个问题的一种方式似乎将其视为霍克斯过程,例如在 Rizoiu 等人的https://arxiv.org/abs/1602.06033中。

该论文还引用了使用其他建模方法的先前工作: 一组方法将流行度动态描述为来自外生冲击或内生松弛的幂律形状,幂律和指数衰减的组合,多重幂-law 以周期性或重复峰值的集合衰减。

第一步是获取数据。Stack Overflow 允许在这里进行大量请求,但我不知道您是否能够获得大量时间序列/这些时间序列是否足够精细。

第二个是建立一个模型(看看 Davide Fiocco 的回答)。但我担心你必须做出一些假设,比如你的帖子视图动态与其他平均 Data.SE 帖子相似,而你的问题实际上是一个很酷的元问题。