假设您有一个数据集,当它的分布第一次绘制时看起来并不正常(例如,它的 qqplot 是弯曲的)。如果在应用某种转换(例如,对数、平方根等)之后,它似乎遵循正态性(例如,qqplot 更直),这是否意味着数据集实际上是正常的,只需要被正确转换,或者这是一个不正确的假设?
如果一个数据集在应用了一些转换之后看起来是正常的,那真的是正常的吗?
机器算法验证
数据转换
正态假设
多维尺度
转换
2022-03-17 05:44:57
3个回答
不
这意味着变换后的分布是正态的。根据转换,它可能表明原始分布缺乏正态性。例如,如果对数变换分布是正态分布,那么原始分布是对数正态分布,这肯定不是正态分布。
_评论继续:考虑对数正态数据x
,当通过对数进行转换时,它确实变得完全正常。在这种情况下(
QQ 图和 Shiapiro-Wilk 正态性检验与原始数据和转换数据一致。
set.seed(2022)
x = rlnorm(100, 50, 7)
y = log(x)
par(mfrow = c(1,2))
hdr1 = "Lognormal Sample: Norm Q-Q Plot"
qqnorm(x, main=hdr1)
abline(a=mean(x), b=sd(x), col="blue")
hdr2 = "Normal Sample: Norm Q-Q Plot"
qqnorm(y, main=hdr2)
abline(a=mean(y), b=sd(y), col="blue")
par(mfrow = c(1,1))
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.1143, p-value < 2.2e-16 # Normality strongly rejected
shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.99017, p-value = 0.678 # Does not rejece null hyp: normal
一般来说,答案是否定的。仅当它是由与您的(一系列)转换相对应的反向转换生成时才正常(请参阅下面的编辑)。尽管如此,转换后数据的分布很有可能接近正态分布,但请记住,并非每个钟形分布都是正态分布。在开始分析之前,您需要的不仅仅是保龄球。
编辑我的回答中的第一句话:转换必须是单调的。例如,如果您获取由正态分布生成的数据,将其平方,然后应用平方根 - 您不会以正态分布结束。
其它你可能感兴趣的问题