机器算法验证 - z 分数和正态分布 - 吾爱随笔录

z 分数和正态分布

机器算法验证正态分布标准差标准化 z分数

2022-03-13 04:28:02

据我了解，z 分数只能计算并准确用于正态分布的数据集。

由于“完美”正态分布几乎从未出现在现实世界的数据中（其中“完美”正态分布定义为 1. 均值、中位数和众数都等于相同的数字，2. 分布在所有标准差之间完全对称在均值的两侧，以及 3. 分布是渐近的），对于 z 分数仍然是有效的统计量度，分布有多“接近”到完全正态？

如果答案是它必须是一个完美的正态分布，那么我的问题是为什么 z 分数如此重要，因为它很少是真实世界数据的有效衡量标准？

4个回答

从技术上讲，z 评分不依赖于任何分布假设，例如正态性。这只是一种描述观察值与平均值之间的距离的方式，无论分布恰好是什么。所以对 z 评分非正态变量没有害处。

主要需要注意的是，对于至少近似于均值对称的分布（包括正态分布，但也包括许多其他分布），z 分数往往提供更多信息，而对于高度偏斜分布的信息较少。原因是因为在偏态分布中，位于均值另一侧的两个观测值可以具有相同的绝对z 分数，尽管其中一个观测值的概率比另一个高/低。

不完全是，z-score 只是一种转换形式。它所做的是将测量单位替换为远离平均值的“标准偏差数”。因此，当有人想要比较以不同单位测量的两个变量时，它是一个方便的工具。

您提到的关于正态分布的内容并不是使用 z-score 的真正条件，而是 z-score 解释的额外好处。当分布正常时，大约 68% 的数据介于 -1 到 1 SD 之间，95% 介于 -2 到 2 SD 之间，99.7% 介于 -3 到 3 SD 之间。（见这里的图片）。然而，对于非正态分布则不能这样说。

Z Score Formula = (x – μ) / ơ

z 分数没有关系分布。要找出 z 分数，您只需要三件事。数据点 (x)、平均值 (μ) 和标准差 (ơ)。它不限于任何特定的分布。将任何数据点转换为 z-score 称为标准化，z-score 没有单位。

在某些情况下，我仍然可以将数据近似为正常情况......对于大多数情况，您需要使用替代的非参数测试，例如 Mann-Whitney 等。统计学家也用 T 分数替换 Z 分数以获得更有效的估计读数更多关于 Z 表和 z 分数...

其它你可能感兴趣的问题

上一篇Box-Cox 变换如何有效？下一篇预测精度计算