网站的唯一身份访问者是否遵循幂律?

机器算法验证 互联网 幂律
2022-03-13 17:46:21

假设我有一个有序向量,其中第一个元素是给定时间段内访问次数最多的唯一 IP 对网站的访问次数,第二个元素是唯一 IP 的访问次数,第二个元素访问次数最多,以此类推。我知道每个站点可能存在差异,但是这个向量的形状通常有一个假设的模式吗?例如,它是否遵循幂律分布?

1个回答

不,网站的唯一身份访问者不遵循幂律。

在过去几年中,对幂律声明的检验越来越严格(例如,Clauset、Shalizi 和 Newman 2009)。显然,过去的声明通常没有经过很好的测试,通常以对数刻度绘制数据并依靠“眼球测试”来证明直线。现在正式测试更普遍了,许多发行版被证明不遵循幂律。

我所知道的关于网络用户访问的最好的两个参考文献是 Ali 和 Scarr (2007) 以及 Clauset、Shalizi 和 Newman (2009)。

Ali 和 Scarr (2007)研究了用户在雅虎网站上的随机点击样本并得出结论:

普遍的观点是网络点击和浏览量的分布遵循无标度幂律分布。然而,我们发现对数据的统计上显着更好的描述是尺度敏感的 Zipf-Mandelbrot 分布,并且它们的混合进一步增强了拟合。以前的分析有三个缺点:他们使用了一小组候选分布,分析过时的用户网络行为(大约在 1998 年),并使用了有问题的统计方法。尽管我们不能排除有一天可能找不到更好的拟合分布,但我们可以肯定地说,尺度敏感的 Zipf-Mandelbrot 分布比无标度幂律或 Zipf来自雅虎域的各种垂直领域。

这是一个月内单个用户点击的直方图,以及他们在对数图上的相同数据,他们比较了不同的模型。数据显然不在无标度功率分布所期望的直线对数对数线上。

图 2 和图 4 来自 Ali 和 Scarr

Clauset、Shalizi 和 Newman (2009)使用似然比检验将幂律解释与替代假设进行了比较,得出的结论是网络点击和链接“不能合理地被认为遵循幂律”。前者的数据是美国在线互联网服务的客户在一天内的网络点击量,而后者的数据是在 1997 年对大约 2 亿网页的网络爬网中发现的网站链接。下图给出了累积分布函数 P(x) 及其最大似然幂律拟合。

在此处输入图像描述

对于这两个数据集,Clauset、Shalizi 和 Newman 发现,具有指数截止以修正分布极尾的幂分布明显优于纯幂律分布,并且对数正态分布也非常适合。(他们还研究了指数假设和拉伸指数假设。)

如果你手头有一个数据集,并且不只是好奇,你应该用不同的模型拟合它并比较它们(在 R 中:pchisq(2 * (logLik(model1) - logLik(model2)), df = 1, lower.尾巴=假))。我承认我不知道如何对零调整 ZM 模型进行建模。Ron Pearson发表了关于 ZM 发行版的博客,显然有一个 R 包 zipfR。我,我可能会从一个负二项式模型开始,但我不是一个真正的统计学家(我喜欢他们的意见)。

(我还想对上面的第二位评论者 @richiemorrisroe 指出数据可能受到与个人人类行为无关的因素的影响,例如爬网程序和代表许多人计算机的 IP 地址。)

提到的论文: