我有一组对应于同一科目不同测试的 z 分数。我可以取每个科目的 z 分数的平均值并将平均 z 分数与实际 z 分数进行比较吗?(即我可以根据一组 z 分数的平均值计算每个主题的百分位数吗?)
编辑:
我的目标是根据该主题的一组 z 分数计算该主题的百分位数。到目前为止,我的方法是取一个受试者的 z 分数的平均值,然后将该平均值视为 z 分数,并据此计算百分位数。我想知道这种方法是否有任何问题?
我有一组对应于同一科目不同测试的 z 分数。我可以取每个科目的 z 分数的平均值并将平均 z 分数与实际 z 分数进行比较吗?(即我可以根据一组 z 分数的平均值计算每个主题的百分位数吗?)
编辑:
我的目标是根据该主题的一组 z 分数计算该主题的百分位数。到目前为止,我的方法是取一个受试者的 z 分数的平均值,然后将该平均值视为 z 分数,并据此计算百分位数。我想知道这种方法是否有任何问题?
也许其他人可以解释其背后的数学原理,但考虑一下这个快速演示:我生成了五个向量,每个向量长 100 个数字。这些向量中的每一个都具有不同的比例,因此我将它们标准化(即,创建 z 评分变量)。也就是说,对于这五个潜在构造变量中的每一个,均值为零,标准差为 1:
set.seed(1839)
## create five different z-score variables that represent latent constructs
data <- data.frame(
latent_construct_1 = scale(rnorm(100, 10, 4)),
latent_construct_2 = scale(rnorm(100, 3, 18)),
latent_construct_3 = scale(rnorm(100, -5, 7)),
latent_construct_4 = scale(rnorm(100, 0, 8)),
latent_construct_5 = scale(rnorm(100, 20, 20))
)
让我们检查以确保它们实际上是 z 分数:
> sapply(data, mean)
latent_construct_1 latent_construct_2 latent_construct_3 latent_construct_4 latent_construct_5
-2.203951e-16 1.634435e-17 1.400464e-17 -1.449145e-17 7.852226e-17
>
> sapply(data, sd)
latent_construct_1 latent_construct_2 latent_construct_3 latent_construct_4 latent_construct_5
1 1 1 1 1
所以,现在假设我们将所有这五个平均起来:
## make a mean of all of these latent constructs
data$mean_latent_construct <- rowMeans(data)
这个新变量是 z 分数吗?我们可以检查平均值是否为零,标准差是否为一:
> ## is the mean zero?
> mean(data$mean_latent_construct)
[1] -2.436148e-17
>
> ## is the standard deviation one?
> sd(data$mean_latent_construct)
[1] 0.4599126
该变量不是 z 分数,因为标准差不是 1。但是,我们现在可以对这个均值变量进行 z 评分。让我们这样做并比较分布:
## z-score the mean latent construct
data$mean_latent_construct_z <- scale(data$mean_latent_construct)
## compare distributions
library(tidyverse)
data <- data %>%
select(mean_latent_construct, mean_latent_construct_z) %>%
gather(variable, value)
ggplot(data, aes(x = value, fill = variable)) +
geom_density(alpha = .7) +
theme_light()
z-scores 的 z-score 聚合变量看起来与 z-scores 的聚合变量有很大不同。
简而言之:不,z 评分变量的平均值不是 z 评分本身。
没有。中心极限定理应该提供一些见解。或者您可以诉诸总和的差异。如果包含要一起平均的个独立 z 分数(均值 0,方差 1),则均值具有方差:
然而,这个数量可以缩放,因为法线的总和是正常的,这将满足 Z 分数的标准。