如何绘制具有混合离散连续分布的变量的 PDF?

机器算法验证 密度函数 直方图
2022-03-15 10:28:40

简单的问题:如何绘制混合离散连续分布的 PDF?

连续部分需要一张图,离散部分需要一张单独的图吗?

还有,这样的野兽PDF吗?还是 PMF-PDF?

我没有考虑任何特定的应用程序,所以一般的答案很适合我。

2个回答

两者不在同一个“尺度”上(离散的概率是 p(x),连续的概率是 f(x)dx,所以 p 和 f 是非常不同的东西);严格来说,绘制混合变量分布的方法是绘制cdf

您也可以按照您的建议分别绘制离散和连续部分。我认为这样的图纸没有任何标准名称。

有些人将这两个部分画在同一个图上,但函数值的含义完全不同,当您尝试处理时,您会得到人们通常不期望的行为(尽管考虑到这一点并不奇怪)离散和连续的部分在一起。

例如,考虑做一个直方图,当你获得更多数据时,你会采用更多的 bin - 然后直方图的表观形状会随着样本大小而变化。由于判断形状是人们使用直方图的目的,它有点违背了目的。试图将它们绘制在同一个图上会失去的一件事是让直方图“收敛”到你想看到的东西(有限的连续部分消失到零)。

混合离散/连续(0-1 膨胀 beta)的直方图序列,显示连续部分在添加 bin 时“消失”
来自 0-1 膨胀 beta 的大样本的三个直方图,具有不同数量的 bin。

如果您绘制连续部分的密度,然后尝试使用 y 轴上的比例标记概率(这在任何情况下都不太合适),那么这些图看起来都不像您得到的那样。

虽然我通常建议不要尝试在同一个情节上绘制两者,但如果你这样做,你真的必须非常仔细地解释正在发生的事情,以便人们正确解释绘图。

在这个答案中绘制最后一个情节时,我打破了我通常的规则:

具有许多零的非负数据模型:Tweedie GLM 的优缺点

但我至少在那里解释了问题。请注意,0 处的概率峰值在每个子图中的高度大致相同,尽管它在某些地方看起来很大而在另一些地方看起来很小 - 虽然有时打破不将两者放在同一个图上的规则很方便,但必须仔细考虑你这样做误导人们的程度。[你经常看到 Tweedie 以某种方式完成了这一点(我至少在四篇论文中看到过)。一个例子是 Dunn & Smyth (2001) “Tweedie Family Densities: Methods of Evaluation” 的图 1,第 16 届国际统计建模研讨会论文集,丹麦欧登塞,7 月 2 日至 6 日。pdf预印本)。如果每个人都清楚他们在看什么,这不是问题]

在对他的回答的评论中与@Glen_b 反复讨论后,我创建了一个混合离散连续分布的“混合”直方图。变量mixednorm有 20% 的机会从平均值为 2 且标准差为 0.8 的正态分布生成数据,并且有 80% 的机会生成的伯努利值。p=.75

离散分量和连续分量有单独的尺度,概率最高的离散值被缩放到等于连续直方图的峰值。另外:离散值箱的宽度设置为与连续箱的宽度相同。

我将不胜感激意见和建议。

混合直方图 1

第二种方法使用垂直线而不是条形来表示离散值,这在离散值非常接近时可能特别有用:

混合直方图 2