有几个汇总统计。当您想描述分布的分布时,您可以使用例如标准差或基尼系数。
我知道标准偏差是基于集中趋势,即偏离平均值,而基尼系数是分散度的一般度量。我也知道基尼系数有上下界[0 1],标准差没有。这些属性很高兴知道,但是标准偏差可以提供哪些基尼系数不能提供的见解,反之亦然?如果我必须选择使用两者中的一种,那么在提供信息和洞察力方面,使用其中一种与其他相比有什么优势。
有几个汇总统计。当您想描述分布的分布时,您可以使用例如标准差或基尼系数。
我知道标准偏差是基于集中趋势,即偏离平均值,而基尼系数是分散度的一般度量。我也知道基尼系数有上下界[0 1],标准差没有。这些属性很高兴知道,但是标准偏差可以提供哪些基尼系数不能提供的见解,反之亦然?如果我必须选择使用两者中的一种,那么在提供信息和洞察力方面,使用其中一种与其他相比有什么优势。
基尼系数是尺度不变且有界的,标准差是平移不变的,并且是无界的,因此它们很难直接比较。现在,您可以通过除以平均值(变异系数)来定义标准偏差的尺度不变版本。
但是,基尼指数仍然基于值,第二个基于平方值,因此您可以预期第二个将更多地受到异常值(过低或过高的值)的影响。这可以在《收入不平等衡量标准》,F De Maio,2007 中找到:
这种收入不平等的衡量标准是用收入分配的标准差除以其平均值来计算的。更平等的收入分配将有更小的标准偏差;因此,在更平等的社会中,CV 会更小。尽管是衡量不平等的最简单方法之一,但 CV 在公共卫生文献中的使用相当有限,并且在收入不平等假设的研究中也没有出现。这可能归因于 CV 测量的重要局限性:(1)它没有上限,与基尼系数不同,18 使得解释和比较更加困难;(2) CV 的两个组成部分(平均值和标准差)可能会受到异常低或高收入值的极大影响。换句话说,
因此,变异系数不太稳健,并且仍然是无界的。要更进一步,您可以删除均值,然后除以绝对偏差 ()。在一个因素中,你最终会得到一个范数比,它可以是有界的,因为,对于-点向量,.
现在有了基尼指数和 范数比,两个有趣的分布稀疏性度量,尺度不变和有界。
它们在2009 年的稀疏性比较测量中进行了比较。针对不同的自然稀疏性属性(罗宾汉、缩放、涨潮、克隆、比尔盖茨和婴儿)进行测试,基尼指数脱颖而出。但它的形状使其难以用作损失函数,并且正则化版本的可以在这种情况下使用。
所以除非你想表征一个接近高斯的分布,如果你想衡量一个稀疏度,使用基尼指数,如果你想促进不同模型之间的稀疏度,你可以尝试这样的范数比。
附加讲座:基尼平均差:非正态分布变异性的优越测量,Shlomo Yitzhaki,2003,其摘要可能看起来很有趣:
在所有可变性度量中,方差是迄今为止最受欢迎的。本文认为,基尼均值差 (GMD) 是另一种可变性指标,它与方差共享许多属性,但可以提供更多关于偏离正态分布的属性的信息
需要考虑的两件事
Gini 与尺度无关,而 SD 采用原始单位
假设我们有一个上下界的度量。如果一半测量值在每个边界,则 SD 取其最大值,而 Gini 取最大值是一个在一个边界,其余的在另一个边界。
标准偏差有一个尺度(例如,°K、米、mmHg、...)。通常,这会影响我们对其大小的判断。所以我们倾向于更喜欢变异系数,甚至更好(在有限样本上)标准误差。
基尼系数是根据(无标度的)百分比值构建的,因此在其自身的单位(例如马赫数)上没有标度。如果您想比较共同的份额(份额为 100%),请使用基尼系数。请注意,对于此应用程序,也可以使用标准偏差,因此我认为您比较优缺点的问题仅适用于此类应用程序。在这种情况下,标准差也将有界. 这两个指标都取决于(非负)份额的数量,但方向相反:基尼随着数量的增加而增加,标准偏差减小。