变异系数的直觉和用途

机器算法验证 标准差 直觉 变异系数
2022-02-03 13:53:12

我目前正在 Coursera.org 上参加运营管理入门课程。在课程的某个时间点,教授开始处理手术时间的变化。

他使用的度量是变异系数,即标准差与平均值之间的比率:

cv=σμ

为什么要使用这种测量方法?除了使用标准差之外,使用CV的优点和缺点是什么?这种测量背后的直觉是什么?

3个回答

我认为它是数据传播或可变性的相对度量。如果您想到“标准差为 2.4”这句话,它实际上不会告诉您不考虑平均值(因此是测量单位,我想)。如果平均值等于 104,则 2.4 的标准差传达的传播图与平均值为 25,452 且标准差为 2.4 的情况完全不同。

出于同样的原因,您将数据标准化(减去平均值并除以标准偏差)以将不同单位表示的数据置于可比较或相等的基础上——因此,这种变异性度量也被标准化——以帮助进行比较。

变异系数实际上是数据集(例如时间序列)中变异的标准化或相对度量,因为它是一个比例(因此可以表示为百分比)。直观地说,如果平均值是期望值,那么变异系数就是测量值相对于平均值的期望变异性。

这在比较多个异质数据集的测量值或对同一数据集进行的多个测量值时很有用 - 两个数据集之间的变异系数,或计算的两组测量值可以直接比较,即使每个数据集是在非常不同的尺度、采样率或分辨率上测量。相反,标准偏差特定于它所获得的测量/样本,即它是绝对的而不是相对的变化量度。

据我了解,均值是位置参数。sd/mean 不应视为变异系数。为什么?简单的论点是统计距离不同于欧几里得距离。为了测量统计距离,我们使用 sd ;一个变量的粗略距离。假设 50 是平均值,2 是 sd,那么 4% 将是 cv。现在平均值为 5,标准差为 2 cv= 40%。统计变异项独立于来源。所以 sd 本身就是衡量变化的好方法。并记住物理学中的一条规则,即不要在单个问题中比较两个单位系统。