z 分数和正态分布

机器算法验证 正态分布 标准差 标准化 z分数
2022-03-13 04:28:02

据我了解,z 分数只能计算并准确用于正态分布的数据集。

由于“完美”正态分布几乎从未出现在现实世界的数据中(其中“完美”正态分布定义为 1. 均值、中位数和众数都等于相同的数字,2. 分布在所有标准差之间完全对称在均值的两侧,以及 3. 分布是渐近的),对于 z 分数仍然是有效的统计量度,分布有多“接近”到完全正态?

如果答案是它必须是一个完美的正态分布,那么我的问题是为什么 z 分数如此重要,因为它很少是真实世界数据的有效衡量标准?

4个回答

从技术上讲,z 评分不依赖于任何分布假设,例如正态性。这只是一种描述观察值与平均值之间的距离的方式,无论分布恰好是什么。所以对 z 评分非正态变量没有害处。

主要需要注意的是,对于至少近似于均值对称的分布(包括正态分布,但也包括许多其他分布),z 分数往往提供更多信息,而对于高度偏斜分布的信息较少。原因是因为在偏态分布中,位于均值另一侧的两个观测值可以具有相同的绝对z 分数,尽管其中一个观测值的概率比另一个高/低。

不完全是,z-score 只是一种转换形式。它所做的是将测量单位替换为远离平均值的“标准偏差数”。因此,当有人想要比较以不同单位测量的两个变量时,它是一个方便的工具。

您提到的关于正态分布的内容并不是使用 z-score 的真正条件,而是 z-score 解释的额外好处。当分布正常时,大约 68% 的数据介于 -1 到 1 SD 之间,95% 介于 -2 到 2 SD 之间,99.7% 介于 -3 到 3 SD 之间。(见这里的图片)。然而,对于非正态分布则不能这样说。

Z Score Formula = (x – μ) / ơ

z 分数没有关系分布。要找出 z 分数,您只需要三件事。数据点 (x)、平均值 (μ) 和标准差 (ơ)。它不限于任何特定的分布。将任何数据点转换为 z-score 称为标准化,z-score 没有单位。

在某些情况下,我仍然可以将数据近似为正常情况......对于大多数情况,您需要使用替代的非参数测试,例如 Mann-Whitney 等。统计学家也用 T 分数替换 Z 分数以获得更有效的估计读数更多关于 Z 表和 z 分数...