简单的问题:如何绘制混合离散连续分布的 PDF?
连续部分需要一张图,离散部分需要一张单独的图吗?
还有,这样的野兽叫PDF吗?还是 PMF-PDF?
我没有考虑任何特定的应用程序,所以一般的答案很适合我。
简单的问题:如何绘制混合离散连续分布的 PDF?
连续部分需要一张图,离散部分需要一张单独的图吗?
还有,这样的野兽叫PDF吗?还是 PMF-PDF?
我没有考虑任何特定的应用程序,所以一般的答案很适合我。
两者不在同一个“尺度”上(离散的概率是 p(x),连续的概率是 f(x)dx,所以 p 和 f 是非常不同的东西);严格来说,绘制混合变量分布的方法是绘制cdf。
您也可以按照您的建议分别绘制离散和连续部分。我认为这样的图纸没有任何标准名称。
有些人将这两个部分画在同一个图上,但函数值的含义完全不同,当您尝试处理时,您会得到人们通常不期望的行为(尽管考虑到这一点并不奇怪)离散和连续的部分在一起。
例如,考虑做一个直方图,当你获得更多数据时,你会采用更多的 bin - 然后直方图的表观形状会随着样本大小而变化。由于判断形状是人们使用直方图的目的,它有点违背了目的。试图将它们绘制在同一个图上会失去的一件事是让直方图“收敛”到你想看到的东西(有限的连续部分消失到零)。

来自 0-1 膨胀 beta 的大样本的三个直方图,具有不同数量的 bin。
如果您绘制连续部分的密度,然后尝试使用 y 轴上的比例标记概率(这在任何情况下都不太合适),那么这些图看起来都不像您得到的那样。
虽然我通常建议不要尝试在同一个情节上绘制两者,但如果你这样做,你真的必须非常仔细地解释正在发生的事情,以便人们正确解释绘图。
在这个答案中绘制最后一个情节时,我打破了我通常的规则:
但我至少在那里解释了问题。请注意,0 处的概率峰值在每个子图中的高度大致相同,尽管它在某些地方看起来很大而在另一些地方看起来很小 - 虽然有时打破不将两者放在同一个图上的规则很方便,但必须仔细考虑你这样做误导人们的程度。[你经常看到 Tweedie 以某种方式完成了这一点(我至少在四篇论文中看到过)。一个例子是 Dunn & Smyth (2001) “Tweedie Family Densities: Methods of Evaluation” 的图 1,第 16 届国际统计建模研讨会论文集,丹麦欧登塞,7 月 2 日至 6 日。(pdf预印本)。如果每个人都清楚他们在看什么,这不是问题]