确定网页浏览量是上升还是下降的最佳方法是什么?

机器算法验证 统计学意义 趋势
2022-04-04 18:44:43

给定我网站上一篇文章的以下数据集:

Article 1
2/1/2010 100
2/2/2010 80
2/3/2010 60

Article 2
2/1/2010 20000
2/2/2010 25000
2/3/2010 23000

其中第 1 列是日期,第 2 列是文章的浏览量。什么是基本的加速度计算,可以用来确定这篇文章在几天内呈上升或下降趋势 我有它的浏览量数据?

例如,查看我可以看到 Article1 呈下降趋势的数字。这如何最容易地反映在算法中?

谢谢!

3个回答

关于综合浏览量的一般想法

我认为有相当多的领域特定知识可以用于页面浏览量。通过检查特定博客文章中的 Google Analytics 统计数据,我观察到以下特征:

  • 当一篇文章首次发布时,页面浏览量的初始峰值很大,这与来自 RSS 提要的点击量、来自联合网站的链接、主页上的突出度、与新事物和社交媒体相关的峰值有关。这种影响往往会迅速下降,但似乎仍能在几周内提供一些推动力。
  • 星期几的效果。至少在我的统计博客中,我得到了一致的一周中某一天的效果。周末有一个平静期。这意味着如果我试图理解一篇文章中有意义的趋势,我会关注每周而不是每天的变化。
  • 季节性影响:我还得到了更微妙的季节性影响,大概与人们工作或假期的时间有关,并且在大学生学习与否时,某些职位比其他职位更多。例如,圣诞节和新年之间的一周非常安静。
  • 在最初的高峰之后,我发现大部分流量是由谷歌搜索驱动的,尽管一些帖子从其他博客或网站的链接中获得了相当大的流量。来自社交媒体和博客文章的链接往往会导致页面浏览量突然激增,并且取决于媒体,随着时间的推移,可能会或可能不会导致一致的流。

识别页面中向上或向下趋势的含义

  • 上述分析提供了一个通用模型,我用它来了解我自己的博客文章的浏览量。它是关于影响页面浏览量的一些主要因素的理论,至少在我的网站上和从我的经验来看是这样。我认为拥有这样的模型或类似的模型有助于完善研究问题。

  • 例如,您可能只对某些形式的上升和下降趋势感兴趣。在整个网站上运行的趋势,例如星期几和季节性趋势可能不是主要关注点。同样,与页面浏览量的初始峰值和发布后随后的下降相关的趋势相对明显,可能并不令人感兴趣(或者可能是)。

  • 还有一个与趋势的时间范围功能形式有关的问题。由于其在 Google 算法中的定位逐渐改善或帖子主题的普遍受欢迎程度,页面的每周浏览量可能会逐渐增加。或者,一个帖子可能会因为它被一个高知名度的网站链接到而经历突然增加。

  • 另一个问题与定义趋势的阈值有关。这包括统计显着性和影响大小。即,趋势在统计上是否与您可能看到的随机变化显着不同,并且这种变化值得您关注。

检测页面浏览量中有趣趋势的简单策略

我不是时间序列分析方面的专家,但这里有一些关于如何实现这样一个工具的想法。

  • 我会计算一个表格,将前 28 天的浏览量与最近 28 天之前的 28 天的浏览量进行比较。您可以通过将时间框架设置为可变数量(例如,7 天、14 天、56 天等)来进一步推进这一过程。页面(以及整个网站)越受欢迎,您就越有可能在一段时间内获得足够的页面浏览量来进行有意义的比较。表格的每一行都是您网站上的一个页面。您将从三列开始(页面标题、当前页面浏览量、比较页面浏览量)
  • 过滤掉整个比较期间不存在的页面。
  • 添加有助于评估任何变化的影响大小以及任何变化的统计显着性的列。一个简单的汇总统计数据将是从比较到当前的百分比变化。您还可以包括从比较到当前的原始变化。也许可以使用卡方来粗略量化任何变化的重要性(尽管我知道观察独立性的假设经常受到损害,这也引发了您使用的是综合浏览量还是独特页面的问题意见)。
  • 然后,我将创建效果大小和显着性检验的组合来表示“趣味性”。
  • 您还可以在更改足够有趣时采用截止值,当然可以将其分类为向上或向下。
  • 然后,您可以应用排序和过滤工具来回答特定问题。
  • 在实施方面,这一切都可以使用 R 和从 Google Analytics 等工具导出的数据来完成。R 和 Google Analytics 之间也有一些接口,但我没有亲自尝试过。

只需构建一个 ARIMA 模型,将信号与噪声分离,并结合任何可识别的确定性结构,例如水平/趋势/季节性脉冲/参数的变化或随时间变化的方差。对未来 5 天进行预测,并使用该总和中的不确定性来创建可能的界限。比较“新的五个读数”的实际总和,并计算产生如此“高”或如此多样化的值的可能性。

Jeromy Anglim 和 IrishStat 都给出了很好的答案,但它们听起来可能比你要找的要复杂一些。

  1. 一种更简单的方法可能是对您的数据执行线性回归,以获得PageViews = a * Date + b一些常数ab; 然后,常数a是数据的线性“斜率”的度量,您可以使用它来衡量链接的趋势。但是,如果您的数据不遵循线性趋势,这可能效果不佳(您其他链接中的示例看起来非常线性,但您可以想象您的链接最近反而呈指数增长)。

  2. 因此,另一种方法可能是将您的综合浏览量转换为排名(例如,在文章 1 中,100 是最低值,因此将其转换为 1;80 是第二低的值,因此将其转换为 2;60 是最高的值,因此将其转换为 3),然后将这些排名与(1,2,...,n)n您拥有的日期总数在哪里)进行相关。

例如,如果您的文章表现得像

Date, PageViews, Rank
June 1, 100, 1
June 2, 120, 3
June 3, 115, 2
June 4, 125, 4
June 5, 150, 5

然后,您将获取 和 之间的相关性(1,3,2,4,5)(1,2,3,4,5)获得 0.9 的趋势分数。(但请注意,在这种方法下,浏览量(100, 120, 115, 125, 150)与 的趋势分数相同(100, 300, 299, 7000, 35000),这可能是也可能不是您想要的,因为后者增长得更快。换句话说,这种方法告诉您趋势的方向有多强是,但不是幅度。如果你确实想了解幅度,那么你可以对每天的浏览量变化重复这些方法,即确定每天的变化是否是趋势向上或向下。)