如何定义分布的尾部(关于重尾分布)?

机器算法验证 分布 术语 指数分布 肥尾 重尾
2022-04-13 23:51:48

据说有些发行版是重尾的似乎重尾分布的一个定义是它的尾部比指数分布的尾部重。但是,由于不同的分布具有不同数量的参数,如何准确定义尾部?

我怀疑这里以某种方式使用了累积分布函数,尽管我不确定。

1个回答

我们通过首先将讨论限制在那些长尾上来区分哪些分布是重尾分布,也就是说,总是存在一个ϵ>0,无论多么小,对于任何x , f(x)>\epsilon>0 <M无论 M 有多大对于右尾),或者x>M对于M大的负数(对于左尾)。换句话说,无论|x|多大, f(x)都是非零的。是。长尾随机变量而不是密度函数定义将是等效的。f(x)>ϵ>0x<MMx>MMf(x)|x|

然后(使用右尾)limx1F(x)0,即长重尾生存函数,即1F(x),AKA 1CDF,然后可用于构造两个候选生存函数的比率,如果较轻的尾部在分子中,则该比率将变为零作为x\rightarrow \infty 。在实践中,比较生存函数比率的极限对数通常更容易,但如果解释得当x,这实际上并没有什么不同。对于长左尾,我们会将 CDF 本身的比率的限制(对数)比较为x,而不是生存函数。

为什么要为此使用 CDF 或 1-CDF?为什么不使用 pdf 的比率(例如,对数)?然而,在许多情况下,我们可以将 pdf 用于实际的随机变量(观察值),以及一些具有诸如非光滑导数之类的讨厌属性的 pdf,这比 pdf 下的限制区域的比较更能说明问题。

指数函数的尾重有什么大不了的指数函数在任何地方都具有相同的速率,因此它们是无记忆的。因此,指数分布形成了测量尾部重量的自然切点。