我一直在处理一些流程周期时间数据并使用标准 z 分数进行缩放,以便在整个周期时间的各个部分之间进行比较。
由于数据严重右偏/非正态,我应该使用其他转换吗?(“异常值”永远不会花费负时间,并且通常需要比“平均”更长的时间)
使用 z 分数似乎仍然“有效”......
###############
# R code
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
我一直在处理一些流程周期时间数据并使用标准 z 分数进行缩放,以便在整个周期时间的各个部分之间进行比较。
由于数据严重右偏/非正态,我应该使用其他转换吗?(“异常值”永远不会花费负时间,并且通常需要比“平均”更长的时间)
使用 z 分数似乎仍然“有效”......
###############
# R code
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
如果 X 高度偏斜,则 Z 统计量将不会呈正态分布(如果必须估计标准偏差,则为 t。因此 Z 的百分位数将不是标准正态。所以从这个意义上说它不起作用。
R 代码会起作用,但 z 分数将与“葡萄轻轻地打电话给钢笔”这句话一样有意义。这是一个有效的句子,但没有传达任何有意义的东西。
从您的 R 代码来看,您似乎认为您的数据是 Weibull 分布的。在这种情况下,我只会使用 Weibull 统计数据,除非你绝对必须这样做,否则不会缩放任何东西。尽管在每个介绍性统计课程中都会教授 z 分数,但这并不意味着您应该一直使用它们,尤其是在您没有对称数据的情况下。
如果人口不是正态分布的。在这种情况下,根据中心极限定理,bar(X) {sample mean} 的分布接近正态分布;对于大样本量。虽然理论上我们说我们使用的是 Student's-t,但对于更高的 n 值(样本大小或自由度),t 分布和 Z 分布几乎相等。
您的数据不必是正常的 Z 测试。(TOWNEND,2002) 然而,方差应该大致相等。要检查对您的两个数据集执行 F 检验,如果您的方差大致相等,则 Z 检验结果很有用。如果不是,请转换数据。