我的统计数据是自学的,但我阅读的很多资料都指向平均值为 0 且标准差为 1 的数据集。
如果是这样的话:
为什么 mean 0 和 SD 1 是一个不错的属性?
为什么从这个样本中抽取的随机变量等于 0.5?抽到 0.001 的几率和 0.5 一样,所以这应该是平分布...
当人们谈论 Z 分数时,他们在这里的真正含义是什么?
我的统计数据是自学的,但我阅读的很多资料都指向平均值为 0 且标准差为 1 的数据集。
如果是这样的话:
为什么 mean 0 和 SD 1 是一个不错的属性?
为什么从这个样本中抽取的随机变量等于 0.5?抽到 0.001 的几率和 0.5 一样,所以这应该是平分布...
当人们谈论 Z 分数时,他们在这里的真正含义是什么?
一开始,最有用的答案可能是 0 的平均值和 1 的 sd 在数学上很方便。如果您可以计算出平均值为 0 且标准差为 1 的分布的概率,您可以通过一个非常简单的方程计算出任何类似的分数分布。
我没有关注这个问题。0 的平均值和 1 的标准差通常适用于标准正态分布,通常称为钟形曲线。最可能的值是平均值,并且随着您的距离越来越远,它会下降。如果你有一个真正平坦的分布,那么没有比另一个更可能的价值了。你的问题在这里形成不正确。您是否正在查看有关抛硬币的问题?查找二项分布和中心极限定理。
“这里的意思”?在哪里?z 分数的简单答案是,它们是您的分数,就好像您的平均值为 0,标准差为 1意思是。该等式正在计算(分数 - 平均值)/标准偏差。你这样做的原因是多种多样的,但一个是在介绍统计课程中,你有不同 z 分数的概率表(见答案 1)。
如果您首先查找 z-score,即使在维基百科中,您也会得到很好的答案。
首先我们在这里讨论的是标准正态分布,一个均值为 0,标准差为 1 的正态分布。作为标准正态分布分布的变量的简写是 Z。
以下是我对您的问题的回答。
(1) 我认为标准正态分布之所以有吸引力有两个关键原因。首先,任何正态分布的变量都可以通过在将每个观测值除以标准偏差之前从每个观测值中减去其平均值来转换或转换为标准正态分布。这称为 Z 转换或 Z 分数的创建。这非常方便,尤其是在计算机出现之前的日子里。
如果你想从你的变量中找出某个事件的概率,这个变量是正态分布的,平均值为 65.6,标准差为 10.2,在没有计算机的情况下,这不是很痛苦吗?假设这个变量是以英寸为单位的美国女性身高。假设我们有兴趣找出从人群中随机抽取的女性身高非常高的概率——比如身高超过 75 英寸。好吧,用计算机来找出这件事有点痛苦,因为我必须随身携带一张桌子来处理每一个可能的正态分布。但是,如果我将其转换为 Z 分数,我可以使用一张表来找出概率,因此:
经常使用标准正态分布的第二个原因是由于解释是根据 Z 分数提供的。Z 变换变量中的每个“观察值”是原始未变换观察值与平均值的多少标准偏差。这对于原始或绝对性能不如相对性能重要的标准化测试特别方便。
(2) 我不跟着你。我想你可能对我们所说的累积分布函数的意思感到困惑。请注意,标准正态分布的期望值为 0,该值对应于相关累积分布函数的 0.5 值。
(3) Z 分数是经过 Z 变换的变量中的单个“观察值”或数据。回到我的变量示例 - 美国女性的身高(以英寸为单位)。一个特别的观察结果可能是一个身高 75 英寸的高个女人。Z 分数是我们之前所做的 Z 变换变量的结果:
既然你从格雷厄姆和约翰那里得到了很好的解释,我只想回答你的最后一个问题:
当人们谈论 Z 分数时,他们在这里的真正含义是什么?
回答这个问题的最好方法是思考这个问题:CS 101 班的成绩通常分布在= 80 和= 5. 65 年级的 z 分数是多少?
所以:(65-80)/5=-3
您可以说 65 年级的 z 分数是-3;或者换句话说,向左 3 个标准差。