为什么我不能使用基本数学计算 1.5 个标准差?
我们不能(线性)在 0.3413 和 0.4772 之间进行插值的原因是因为正态分布的 pdf 不均匀(在单个值处平坦)。
考虑这个更简单的例子,我们可以使用几何来查找区域。
地块的总面积是1
(它是一个对角线切割的正方形,两个部分重新排列成一个三角形)。使用Base*Height/2
我们可以发现,区域 A 的面积是0.5
,区域 B 和 C 的总面积也是0.5
。
但是 B 和 C 的面积不相等。区域 C 的面积是0.5*0.5/2 = 0.125
,因此区域 B 的面积是0.375
。因此,即使区域 B 和 C 沿 x 轴的宽度相同,但由于高度不是恒定的,它们具有不同的面积。
您在练习中处理的正态分布与此类似,但高度函数更复杂,而不是简单的三角形。因此,两个值之间的区域不能简单地解决 - 因此使用 Z 分数和表格来查找概率。
只是为了提供关于同一主题的不同插图......
在您的初始计算中,您会将正态曲线视为均匀分布,在这种情况下,您的初始方法将是下图中双阴影矩形的正确数学计算(具有不同的实际值),仅仅是因为您将能够将区域表示为轴距离的简单线性相关性:
但是您想计算高斯分布曲线下的斜阴影面积,如前所述,即使分布是三角形的
7
高斯分布的公式为:
其中 sigma = 标准偏差和 mu = 平均值
(从维基百科偷来的)
当您要求该区域时,您是在指定范围内集成此功能。这个积分没有“封闭形式”的解决方案:没有办法使用“正常”数学函数(如阶乘、乘法、取幂、根等)得出一个等于该积分的表达式。
就像对数或三角函数一样:您不能使用其他代数函数为它们生成封闭形式的方程(您可以使用无限级数,但这不是“封闭的”)。因此,当您需要实际计算时,您可以使用表格(如果您感觉复古,或者计算器,它只是在幕后为您使用嵌入在其处理器中的表格作为起点)。
事实上,与对数的并列非常贴切:也可以用积分来定义对数,即 ln(x) = (1/x) 从 0 到 x 的积分。
在几何上.4772 - .3413
, 表示图形下方介于 1 个标准差和 2 个标准差之间的区域。如果您将此区域水平分割一半,分割左侧的部分将是 1 到 1.5 个标准差之间的区域,如您所愿。到目前为止还好。
但是,当您使用时,(.4772 - .3413) / 2
您将获得一半的区域,但不一定是您要寻找的区域,即水平方向一半的区域。有了这张图,分割的左边部分不是区域的一半——这条线向下倾斜(从左上角到右下角),所以左边的空间比右边的空间大。如果此图是一条水平直线,那么您要分割的区域将是一个矩形,而一半的区域实际上将是一半。