我正在尝试通过算法估计数据集的突发性,并找到了两个可比较的指标。
变异系数是标准差与平均值的比值。离散指数是方差与均值的比值。
为什么一个人会使用一个而不是另一个?各自的优缺点是什么?
我正在尝试通过算法估计数据集的突发性,并找到了两个可比较的指标。
变异系数是标准差与平均值的比值。离散指数是方差与均值的比值。
为什么一个人会使用一个而不是另一个?各自的优缺点是什么?
请注意,变异系数 (CV) 始终是无量纲的并且是尺度不变的。另一方面,离散指数 (ID) 不是尺度不变的,并且仅当它应用于无量纲变量(例如计数)时才是无量纲的,就像实践中的情况一样。CV 和 ID 都用于非负变量,但它们用于不同的上下文。
样本和理论 CV 为连续分布和样本提供了很好的指示。指数分布具有单位 CV,可以看作是某些分布族中的参考。gamma、Weibull 和 Generalized Pareto (GP) 族嵌入了具有任意 CV 的分布,并且它们的形状参数与 CV 之间存在一对一的关系。在三个家庭中,表示比指数更细的尾巴,而是一个比指数更粗的尾巴,在 GP 的情况下甚至是一个沉重的尾巴。
样本 ID 和理论 ID 最常用于具有非负整数值的离散变量,例如计数。参考分布与现在是泊松分布,特别是在由三个分布组成的族中。二项式、泊松和负二项式。二项式分散不足 ()和负二项式过度分散 ()。ID 常用于泊松分布起主要作用的点过程理论。
更新过程提供了这两个概念之间的有趣关系 :作为 iid 正 r.vs 的序列给出 通常代表一生,利息是总和对于大, 并在数续约 落在区间. 当。。。的时候是指数的,是泊松。在相当一般的假设下,ID趋于大CV 的平方所以 当 CV 的是.