为什么在使用具有正值和负值的数据时变异系数无效?

机器算法验证 描述性统计
2022-03-05 22:18:33

我似乎无法为我的问题找到明确的答案。

我的数据由几个图组成,测量平均值从 0.27 到 0.57 不等。在我的例子中,所有数据值都是正数,但测量本身是基于反射率值的比率,范围可以从 -1 到 +1。这些图代表了NDVI的值,这是一个远程导出的植被“生产力”指标。

我的目的是比较每个地块的值的可变性,但由于每个地块的平均值不同,我选择使用 CV 来衡量每个地块的 NDVI 值的相对离散度。

据我了解,获取这些地块的 CV 并不合理,因为每个地块都可以有正值和负值。为什么在这种情况下不适合使用 CV?有哪些可行的替代方案(即,类似的相对分散测试、数据转换等)?

2个回答

想想什么是 CV:标准差与均值的比率。但如果变量可以有正值和负值,则平均值可能非常接近 0;因此,CV 不再做它应该做的事情:也就是说,与平均值相比,给出 sd 有多大的感觉。

编辑:在评论中,我说如果你可以明智地为变量添加一个常量,CV 就不好了。这是一个例子:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 只是 x + 10。我认为直观地很清楚它们是同样可变的;但简历不同。

一个真实的例子是,如果 x 是以摄氏度为单位的温度,而 x2 是以 K 度为单位的温度(尽管有人可能会争辩说 K 是正确的标度,因为它有一个定义的 0)。

我认为这些是不同的变异模型。有一些统计模型,其中 CV 是恒定的。这些工作可能会报告一份简历。有些模型的标准差是均值的幂函数。有些模型的标准偏差是恒定的。通常,对于比率尺度变量,恒定 CV 模型比恒定 SD 模型更好的初始猜测。您可以推测为什么这是真的,也许是基于乘法而不是加法相互作用的普遍性。

恒定 CV 建模通常与对数变换相关联。(一个重要的例外是有时为零的非负面响应。)有几种方法可以查看。首先,如果 CV 是常数,那么对数就是传统的方差稳定变换。或者,如果您的误差模型是对数正态且对数标度中的 SD 常数,则 CV 是该 SD 的简单转换。当两者都很小时,CV 大约等于对数尺度 SD。

应用 stats 101 方法(如标准偏差)的两种方法是您获取数据的方式或(特别是如果这些是比率比例)到他们的日志的数据。你做出最好的第一个猜测,你知道自然可能会更复杂,并且可能需要进一步研究。一定要考虑到人们以前发现对你的数据有什么好处。

这是一个例子,这些东西很重要。化学浓度有时用 CV 总结或以对数标度建模。但是,pH 是对数浓度。