如果一个数据集在应用了一些转换之后看起来是正常的,那真的是正常的吗?

机器算法验证 数据转换 正态假设 多维尺度 转换
2022-03-17 05:44:57

假设您有一个数据集,当它的分布第一次绘制时看起来并不正常(例如,它的 qqplot 是弯曲的)。如果在应用某种转换(例如,对数、平方根等)之后,它似乎遵循正态性(例如,qqplot 更直),这是否意味着数据集实际上是正常的,只需要被正确转换,或者这是一个不正确的假设?

3个回答

这意味着变换后的分布是正态的。根据转换,它可能表明原始分布缺乏正态性。例如,如果对数变换分布是正态分布,那么原始分布是对数正态分布,这肯定不是正态分布。

_评论继续:考虑对数正态数据x,当通过对数进行转换时,它确实变得完全正常。在这种情况下( QQ 图和 Shiapiro-Wilk 正态性检验与原始数据和转换数据一致。n=1000),

set.seed(2022)
x = rlnorm(100, 50, 7)
y = log(x)
par(mfrow = c(1,2))
 hdr1 = "Lognormal Sample: Norm Q-Q Plot"
 qqnorm(x, main=hdr1)
  abline(a=mean(x),  b=sd(x), col="blue")
 hdr2 = "Normal Sample: Norm Q-Q Plot"
 qqnorm(y, main=hdr2) 
  abline(a=mean(y), b=sd(y), col="blue")
par(mfrow = c(1,1))

在此处输入图像描述

shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.1143, p-value < 2.2e-16     # Normality strongly rejected

shapiro.test(y)

        Shapiro-Wilk normality test

data:  y
W = 0.99017, p-value = 0.678     # Does not rejece null hyp: normal

一般来说,答案是否定的。仅当它是由与您的(一系列)转换相对应的反向转换生成时才正常(请参阅下面的编辑)。尽管如此,转换后数据的分布很有可能接近正态分布,但请记住,并非每个钟形分布都是正态分布。在开始分析之前,您需要的不仅仅是保龄球。

编辑我的回答中的第一句话:转换必须是单调的。例如,如果您获取由正态分布生成的数据,将其平方,然后应用平方根 - 您不会以正态分布结束。