幂律与齐夫定律之间的联系

机器算法验证 分布 配件 幂律 邮编
2022-03-19 13:38:50

我试图更好地理解幂律分布和 Zipf 分布(定律)之间的联系。[1]中有一个简洁的解释。

文章建议,由于我们可以从帕累托定律推导出幂律函数,结合帕累托定律和齐夫定律的关系,幂律参数α为1 + 1/b。据我了解,这意味着我们可以通过简单的幂律 alpha 参数直接确定 Zipf 定律的 b 参数。因此,例如,2 的 alpha 将导致 1 的 ab。

这是真的?那么我可以通过例如使用 Clauset 等人的方法来计算 alpha。【2】对我的数据然后直接通过定义确定Zipf参数b?这将允许我使用 Clauset 的精确方法,而不是像在对数图上拟合直线这样的非精确方法。所以我也会克服产生排名等的必要性。

[1] http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html

[2] http://arxiv.org/abs/0706.1062

1个回答

Zipf 定律一般被理解为简单的整数值的幂律分布,即概率分布,形式为

p(x)xα对于 , \alpha>1x\in \mathbb{N}_{>0}xxmin>0α>1xN>0

其中是幂律适用的最小值,对于 Zipf 定律,通常为 1(尽管并非总是如此;文献中关于 Zipf 定律是否为情况或是否可用于)。xminxmin=1xmin>1

但是,幂律分布具有互补累积分布函数 (ccdf)也是幂律形式的特殊性质,但现在其中(并且)。当人们声明 Zipf 定律的估计的某某参数时,这在解释人们的确切含义时出现了一些歧义。他们的意思是还是重要的是要清楚你在说哪一个。只要你说你估计的参数是pdf还是cdf参数,应该没问题。P(x)xββ>0β=α1αβ

另一个小点:当人们谈论帕累托分布和数据时,他们经常谈论“排名频率”图。这些与 ccdf 相同(我们在您链接到的 SIAM 评论论文中进一步讨论了这一点),只是轴颠倒了。这意味着您可以通过取倒数轻松地将某人估计的指数从秩频率图(Lada Adamic 称之为 Pareto 形式)转换为常规 pdf 指数。但是,人们并没有真正区分齐夫定律和帕累托定律。两者都只是幂律分布,所以最好只讨论α