给定我网站上一篇文章的以下数据集:
Article 1
2/1/2010 100
2/2/2010 80
2/3/2010 60
Article 2
2/1/2010 20000
2/2/2010 25000
2/3/2010 23000
其中第 1 列是日期,第 2 列是文章的浏览量。什么是基本的加速度计算,可以用来确定这篇文章在几天内呈上升或下降趋势 我有它的浏览量数据?
例如,查看我可以看到 Article1 呈下降趋势的数字。这如何最容易地反映在算法中?
谢谢!
给定我网站上一篇文章的以下数据集:
Article 1
2/1/2010 100
2/2/2010 80
2/3/2010 60
Article 2
2/1/2010 20000
2/2/2010 25000
2/3/2010 23000
其中第 1 列是日期,第 2 列是文章的浏览量。什么是基本的加速度计算,可以用来确定这篇文章在几天内呈上升或下降趋势 我有它的浏览量数据?
例如,查看我可以看到 Article1 呈下降趋势的数字。这如何最容易地反映在算法中?
谢谢!
我认为有相当多的领域特定知识可以用于页面浏览量。通过检查特定博客文章中的 Google Analytics 统计数据,我观察到以下特征:
上述分析提供了一个通用模型,我用它来了解我自己的博客文章的浏览量。它是关于影响页面浏览量的一些主要因素的理论,至少在我的网站上和从我的经验来看是这样。我认为拥有这样的模型或类似的模型有助于完善研究问题。
例如,您可能只对某些形式的上升和下降趋势感兴趣。在整个网站上运行的趋势,例如星期几和季节性趋势可能不是主要关注点。同样,与页面浏览量的初始峰值和发布后随后的下降相关的趋势相对明显,可能并不令人感兴趣(或者可能是)。
还有一个与趋势的时间范围和功能形式有关的问题。由于其在 Google 算法中的定位逐渐改善或帖子主题的普遍受欢迎程度,页面的每周浏览量可能会逐渐增加。或者,一个帖子可能会因为它被一个高知名度的网站链接到而经历突然增加。
另一个问题与定义趋势的阈值有关。这包括统计显着性和影响大小。即,趋势在统计上是否与您可能看到的随机变化显着不同,并且这种变化值得您关注。
我不是时间序列分析方面的专家,但这里有一些关于如何实现这样一个工具的想法。
只需构建一个 ARIMA 模型,将信号与噪声分离,并结合任何可识别的确定性结构,例如水平/趋势/季节性脉冲/参数的变化或随时间变化的方差。对未来 5 天进行预测,并使用该总和中的不确定性来创建可能的界限。比较“新的五个读数”的实际总和,并计算产生如此“高”或如此多样化的值的可能性。
Jeromy Anglim 和 IrishStat 都给出了很好的答案,但它们听起来可能比你要找的要复杂一些。
一种更简单的方法可能是对您的数据执行线性回归,以获得PageViews = a * Date + b一些常数a和b; 然后,常数a是数据的线性“斜率”的度量,您可以使用它来衡量链接的趋势。但是,如果您的数据不遵循线性趋势,这可能效果不佳(您其他链接中的示例看起来非常线性,但您可以想象您的链接最近反而呈指数增长)。
因此,另一种方法可能是将您的综合浏览量转换为排名(例如,在文章 1 中,100 是最低值,因此将其转换为 1;80 是第二低的值,因此将其转换为 2;60 是最高的值,因此将其转换为 3),然后将这些排名与(1,2,...,n)(n您拥有的日期总数在哪里)进行相关。
例如,如果您的文章表现得像
Date, PageViews, Rank
June 1, 100, 1
June 2, 120, 3
June 3, 115, 2
June 4, 125, 4
June 5, 150, 5
然后,您将获取 和 之间的相关性(1,3,2,4,5)以(1,2,3,4,5)获得 0.9 的趋势分数。(但请注意,在这种方法下,浏览量(100, 120, 115, 125, 150)与 的趋势分数相同(100, 300, 299, 7000, 35000),这可能是也可能不是您想要的,因为后者增长得更快。换句话说,这种方法告诉您趋势的方向有多强是,但不是幅度。如果你确实想了解幅度,那么你可以对每天的浏览量变化重复这些方法,即确定每天的变化是否是趋势向上或向下。)