如何解释密度图的高度

机器算法验证 数据可视化 密度函数
2022-02-13 05:42:23

我应该如何解释密度图的高度:

在此处输入图像描述

例如,在上图中,峰值在 x=18 处约为 0.07。我可以推断出大约 7% 的值在 18 左右吗?我可以比这更具体吗?在 x=30 处还有一个高度为 0.02 的第二个峰。这是否意味着大约 2% 的值在 30 左右?

编辑:关于概率分布值是否可以超过 1 的问题?讨论 >1 的概率值,这在这里根本不是问题。它还讨论了与朴素贝叶斯分类器有关的问题,这也不是重点。我想用简单的语言得到我们可以从这种密度曲线中得出的数值推论。讨论了曲线下面积的作用,但我的问题具体是我们可以就曲线上存在的特定 x 和 y 组合得出什么推论。例如,我们如何在这张图上关联 x=30 和 y=0.02。关于 30 和 0.02 之间的关系,我们可以在这里写什么陈述。由于密度是针对一个单位值的,我们可以说 2% 的值出现在 29.5 和 30.5 之间吗?如果是这种情况,如果值仅从 0 变化到 1,我们如何解释,如下图所示:

在此处输入图像描述

如果 100% 的值出现在 0 和 1 之间,为什么在 0 和 1 之外有曲线?

在 x=0.1 到 x=0.2 处有一个平坦部分,其中 y 等于 0.8。它形成一个矩形。我们如何找出在 x=0.1 和 x=0.2 之间出现的值的比例

1个回答

你需要小心你的措辞。假设x是一个连续变量,任何单个值的概率恰好为零。正如您所做的那样,谈论某个值位于某个点附近的概率是可以的,尽管您可能想要更精确一些。您的第二个陈述,您在其中提供了间隔和概率,这是我正在寻找的东西。

本质上,密度函数关于x的积分将告诉您概率本身(这就是为什么它被称为密度)。显然,您将积分的区间可以任意小,因此您可以任意程度地接近一个点。也就是说,当密度函数在该区间内变化非常缓慢时,您可以通过一些数值技术来近似积分,例如梯形法则

总结一下:密度函数的高度就是它的高度。您可能想要得出的关于概率的任何结论都必须包括某种形式的积分。