机器算法验证 - 超过1的概率分布值可以吗？ - 吾爱随笔录

超过1的概率分布值可以吗？

机器算法验证可能性分布正态分布密度函数常问问题

2022-01-26 12:09:47

$p(\mathrm{height}|\mathrm{male}) = 1.5789$ （1 上的概率分布是可以的。它是钟形曲线下的面积等于 1。）

的值怎么可能是好的？我认为所有概率值都在范围内表示。此外，假设有可能有这样的值，那么在页面上显示的示例中如何获得该值？ $>1$ $0 \leq p \leq 1$

4个回答

该Wiki页面通过将此数字称为概率来滥用语言。你说得对，事实并非如此。它实际上是每英尺的概率。具体来说，1.5789 的值（对于 6 英尺的高度）意味着高度介于 5.99 和 6.01 英尺之间的概率接近以下无单位值：

1.5789 [1 / foot] \times (6.01 - 5.99) [feet] = 0.0316

$1.5789\, [1/\text{foot}] \times (6.01 - 5.99)\, [\text{feet}] = 0.0316$

如您所知，此值不得超过 1。（高度的小范围（本例中为 0.02）是概率装置的关键部分。它是高度的“微分”，我将其缩写为。）每单位的概率是与其他密度类似，称为密度，例如每单位体积的质量。 $d(\text{height})$

真正的概率密度可以具有任意大的值，甚至是无限大的值。

伽玛分布

此示例显示 Gamma 分布的概率密度函数（形状参数为，比例为）。因为大多数密度小于，所以曲线必须上升到高于才能使总面积为，这符合所有概率分布的要求。 $3/2$ $1/5$ $1$ $1$ $1$

贝塔分布

该密度（对于参数为和处变为无限大。总面积仍然是有限的（等于）！ $1/2, 1/10$ $0$ $1$ $1$

该示例中的值 1.5789 /英尺是通过估计男性的身高具有均值为 5.855 英尺、方差为 3.50e-2 平方英尺的正态分布而获得的。（这可以在前面的表格中找到。）该方差的平方根是标准偏差，0.18717 英尺。我们将 6 英尺重新表示为平均值的 SD 数：

z = (6 - 5.855) / 0.18717 = 0.7747

$z = (6 - 5.855) / 0.18717 = 0.7747$

除以标准差产生关系

d z = d (height) / 0.18717

$dz = d(\text{height})/0.18717$

根据定义，正态概率密度等于

\frac{1}{\sqrt{2 π}} \exp (- z^{2} / 2) d z = 0.29544 d (height) / 0.18717 = 1.5789 d (height) .

$\frac{1}{\sqrt{2 \pi}}\exp(-z^2/2)dz = 0.29544\ d(\text{height}) / 0.18717 = 1.5789\ d(\text{height}).$

（实际上，我作弊了：我只是让 Excel 计算 NORMDIST(6, 5.855, 0.18717, FALSE)。但后来我确实对照公式检查了它，只是为了确定。）当我们去除本质微分从公式中只剩下数字，就像柴郡猫的微笑一样。我们读者需要明白，这个数字必须乘以高度的微小差异才能产生概率。 $d(\text{height})$ $1.5789$

这是一个常见的错误，因为不理解变量是离散的概率质量函数和变量是连续的概率密度函数之间的区别。请参阅什么是概率分布：

连续概率函数是为连续区间上的无限个点定义的，单个点的概率始终为零。概率是在间隔上测量的，而不是单个点。也就是说，两个不同点之间的曲线下面积定义了该区间的概率。这意味着概率函数的高度实际上可以大于一。积分必须等于 1 的性质等价于离散分布的所有概率之和必须等于 1 的性质。

我认为在一个区间内连续均匀分布 $[a,b]$ 为这个问题提供了一个简单的例子：在连续均匀分布中，每个点的密度在每个点上都是相同的（均匀分布）。此外，因为矩形下方的面积必须为 1（正如正态曲线下方的面积必须为 1），所以密度值必须为 $1/(b-a)$ 因为任何有底的矩形 $b-a$ 和面积 $1$ 必须有高度 $1/(b-a)$ .

所以区间上的均匀密度值 $[0,0.5]$ 是 $1/(0.5-0)=2$ , 在区间 $[0,0.1]$ 它是 $10$ , ...

我不知道 Wikipedia 文章是否在此线程中的初始帖子之后进行了编辑，但现在它说“请注意，此处大于 1 的值是可以的——它是概率密度而不是概率，因为高度是一个连续变量。”，至少在这个直接的上下文中，P 用于概率，p 用于概率密度。是的，非常草率，因为文章在某些地方使用 p 来表示概率，而在其他地方则使用概率密度。

回到最初的问题“超过 1 的概率分布值可以吗？” 不，但我已经看到它完成了（见下面我的最后一段）。

以下是如何解释概率 > 1。首先，请注意，人们可以而且确实付出了 150% 的努力，正如我们在体育运动中经常听到的那样，有时也会工作https://www.youtube.com/watch?v=br_vSdAOHQQ。如果您确定某事会发生，则概率为 1。概率为 1.5 可以解释为您 150% 确定事件会发生——有点像付出 150% 的努力。

如果你可以有一个概率> 1，我想你可以有一个概率< 0。负概率可以解释如下。0.001 的概率意味着事件几乎不可能发生。概率 = 0 表示“不可能”。负概率，例如 -1.2，对应于“你一定是在开玩笑”。

30年前我还是个刚毕业的小伙子时，目睹了比打破航空音障更令人震惊的事件，那就是打破概率上的统一障碍。拥有博士学位的分析师。物理学博士花了 2 年的时间全职（可能付出了 150%）开发了一个模型来计算检测到物体 X 的概率，最后他的模型和分析成功地完成了与美国密切相关的几位科学家和工程师的同行评审政府。我不会告诉你物体 X 是什么，但物体 X 以及探测到它的概率，过去和现在仍然是美国政府相当感兴趣的。该模型包括一个公式 $P_y$ =概率（事件 y 发生）。 $P_y$ 和其他一些术语都组合成最终公式，即 Prob（检测到对象 X）。实际上，Prob（检测到对象 X）的计算值在 [0,1] 的范围内，正如 Kolmogorov 传统中的“传统”概率一样。 $P_y$ 其原始形式始终位于 [0,1] 中，并涉及标准 Fortran 或任何科学计算器中可用的“花园式”超越函数。然而，出于一个只有分析师和上帝知道的原因（也许是因为他在他的物理课和书籍中看到了它，但不知道他看到了少数几个有效的案例，而不是更多的案例。不是，而且这家伙的名字和科学/数学判断也不是狄拉克的），他选择了一个二项泰勒展开式 $P_y$ （并忽略剩余项），此后将被称为 $P_y$ . 就是这两项泰勒展开式 $P_y$ 它被插入到 Prob 的最终表达式中（检测到对象 X）。直到我向他指出，他才意识到， $P_y$ 使用他的所有参数的基本情况值大约等于 1.2。确实有可能 $P_y$ 上升到大约 1.8。这就是统一障碍在概率上被打破的方式。但是这家伙不知道他已经完成了这项开创性的壮举，直到我向他指出，他刚刚在一间黑暗的会议室里对电池供电的信用卡大小的卡西欧科学计算器进行了快速计算（用太阳能计算器）。这有点像查克·耶格尔（Chuck Yeager）周日在他的飞机上旋转，几个月后才被告知他已经打破了音障。

其它你可能感兴趣的问题

上一篇交叉验证后对完整数据集进行训练？下一篇Keras“嵌入”层如何工作？