变异系数与分散指数的用例

机器算法验证 分散
2022-03-23 00:25:36

我正在尝试通过算法估计数据集的突发性,并找到了两个可比较的指标。

变异系数是标准差与平均值的比值。离散指数是方差与均值的比值。

为什么一个人会使用一个而不是另一个?各自的优缺点是什么?

1个回答

请注意,变异系数 (CV) 始终是无量纲的并且是尺度不变的。另一方面,离散指数 (ID) 不是尺度不变的,并且仅当它应用于无量纲变量(例如计数)时才是无量纲的,就像实践中的情况一样。CV 和 ID 都用于非负变量,但它们用于不同的上下文。

样本和理论 CV 为连续分布和样本提供了很好的指示。指数分布具有单位 CV,可以看作是某些分布族中的参考。gamma、Weibull 和 Generalized Pareto (GP) 族嵌入了具有任意 CV 的分布,并且它们的形状参数与 CV 之间存在一对一的关系。在三个家庭中,CV<1表示比指数更细的尾巴,而CV>1是一个比指数更粗的尾巴,在 GP 的情况下甚至是一个沉重的尾巴。

样本 ID 和理论 ID 最常用于具有非负整数值的离散变量,例如计数。参考分布与ID=1现在是泊松分布,特别是在由三个分布组成的族中。二项式、泊松和负二项式。二项式分散不足ID<1)和负二项式过度分散ID>1)。ID 常用于泊松分布起主要作用的点过程理论。

更新过程提供了这两个概念之间的有趣关系 :作为 iid 正 r.vs 的序列给出Xi 通常代表一生,利息是总和Sn:=X1+X2++Xn对于大n, 并在数Nt续约 Sn落在区间(0,t). 当。。。的时候Xi是指数的,Nt是泊松。在相当一般的假设下,IDNt趋于大tCV 的平方X所以Nt 当 CV 的X>1.