我理解 X 轴表示随机变量 X 的值,但我想知道我应该如何调用或思考 Y 轴。如果我在连续概率分布中找到随机变量的特定值,则概率为零。据我了解,Y 轴表示相对频率,但我不确定如何正确调用它以及它的含义。对我来说,Y 轴有点毫无意义。
“Y轴”在连续概率分布中是什么意思?
有两种常用的方法来表示概率分布,概率密度函数 (PDF)和累积分布函数 (CDF)。我怀疑你最想知道的是前者。对于后者,分布被绘制为从零到一的累积,因此 y 轴是分布的总和,直到给定的 x 值。
对于概率密度函数,名字中有一个很大的暗示:它是一个密度。不过,您是对的,我们通常不认为 Y 轴那么重要。PDF 一直在绘制,没有任何标记的 Y 轴。但是如果你给它贴上标签,你会把它读成密度:X中某个单位范围的总概率。你可以考虑X的某个无限窄范围内的范围,但是那个无限窄的范围仍然在X中具有单位到给出密度。
我想你有一个来自连续分布的中等大小或大的随机样本,并且你想绘制一个数据图,表明总体分布的形状。
然后一个起点是制作一个“密度”直方图,其中所有条形的总面积增加为单位[同样,密度曲线下方的总面积是一单位。]
这是一个大小为的样本,来自略微右偏的gamma 分布, 其中在 R 中模拟。
set.seed(2020)
x = rgamma(1000, 5, 0.1)
summary(x); sd(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.637 33.938 46.370 49.928 61.942 163.680
[1] 22.61689 # sample SD
hist(x, prob=T, br=20, col="skyblue2")
lines(density(x), lwd=2, col="orange")
curve(dgamma(x, 5, .1), add=T, lwd=2, lty="dotted")
图中,黑色虚线曲线是直方图条是在密度刻度上绘制的,橙色曲线是默认的“核密度估计器”( R 中的KDE)。对于大小为的样本,直方图非常适合总体 PDF 或者 KDE 与 PDF 非常接近也就不足为奇了。
相比之下,如果我只看观察值中的前 100 个,直方图和 KDE 仍然接近 PDF,但不是很好。单个刻度线显示 100 个点的确切位置。
set.seed(2020)
x = rgamma(100, 5, 0.1)
summary(x); sd(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
15.92 33.50 47.82 51.76 61.39 163.68
[1] 27.4087
hist(x, prob=T, ylim=c(0,.02), col="skyblue2")
rug(x)
lines(density(x), lwd=2, col="orange")
curve(dgamma(x, 5, .1), add=T, lwd=2, lty="dotted")
注意:对于小样本,可以将数据分类到适当的区间并手动绘制相应的直方图,但制作有用的 KDE 可能最好留给软件。
概率密度是一种密度,可以这样理解。
尽管这种思维方式在其他答案中有所提及,并且在其他线程中更详细,但我发现它在尝试教授该主题时很有帮助,并且建立在人们应该已经普遍并且确实早就知道的关于密度的知识的基础上。
因此,在(高中?)物理或其他学科中,人们应该遇到密度,即每单位体积的质量。在生态学、流行病学、人口学、地理学和许多社会科学中,人口密度是每单位面积的人数(或生物体)。同样的想法很容易应用于计算某个区域或沿线的设施,例如城市内道路沿线的星巴克数量
密度有倒数,这通常是有趣或有用的。人口密度的倒数是每人或有机体的面积。沿着一条线的密度的倒数是物体之间的典型距离,两者都被记录在诸如平均每 200 m 有一家星巴克之类的陈述中。
我可以想到另一个可能很深奥的例子,但你应该不难理解:排水密度是一个地区(通常但不一定是盆地、集水区或分水岭)内河流的总长度除以该地区的面积地区。(小字:测量摆动线的长度远非显而易见。)
通过一点抽象,我们可以将家庭相似性识别为给定空间中有多少东西。
是时候关注一个具体的例子了:
在我通常的统计环境中,这接近默认值作为普通或花园直方图。轴上显示变量,即一束汽车的每加仑英里数,轴上具有(概率)密度标度。
现在是三个部分的数字紧缩:
总概率为 1,由条形的总面积给出。
上的变量范围轴约为 40(英里/加仑)。粗略的心算在这里很好。
因此,要做到这一点,条形的平均高度必须约为 1/40,因为我们可以想到一个隐含的矩形,其面积为
条的平均高度范围在轴1.
因此,条形图的平均高度应该是 0.025 左右,当我们查看图表时可以看出这一点。(此时可能会有轻微的挥动手臂,但通常听众可以看到该数字具有正确的数量级。)
概率密度的(测量)单位源于概率没有单位这一事实,因此
概率密度单位1 / 单位开轴
这里的单位很简单,每英里加仑,但通常并非如此。
显然,如果谈论一起考虑的两个或多个变量的双变量或多变量密度,故事会变得更加复杂,但原则上没有什么不同。
这里没有帮助的是(据我所知)一个几乎普遍的习惯,即从不在概率密度轴上指定测量单位。这似乎有以下三个原因:
他们通常看起来很奇怪。因此,水文学家和许多其他人习惯于以立方米每秒来考虑河流流量(所以),但当他们被告知放电的概率密度有单位时,他们可能会吓一跳. (使用非公制而不是公制单位没有帮助。)
概率密度的单位只是隐含的单位的倒数轴。
没有其他人这样做,那我们为什么要这样做?
大卫芬尼 (19172018)写了一篇关于统计学维度的精彩文章。您可以访问https://www.jstor.org/stable/2346969
我还发现,即使是那些在数学或物理科学方面受过良好教育的人也不会不自觉地从维度和测量单位的角度考虑他们在统计学中所做的事情(即使这一点确实出现了,例如在解释为什么标准差比方差更容易考虑)。特别是,通过强调概率密度通常具有与概率本身完全不同的单位,可以缓解在某处密度超过 1 的常见困惑。
只是为了用一个方程说清楚,概率密度函数(PDF)随机变量定义为:
在哪里是随机变量的无穷小概率取值和是随机变量的微分. 换句话说,PDF的价值乘以,这是你的情节曲线下的无穷小面积, 等于无穷小概率随机变量取值.
你可以扩展这个想法在某个范围内:,然后找到随机变量的概率在这个区间是:
即曲线下的面积从到.
基本上,我们可以将 PDF 理解为一个密集表达式或概率密度:它给出了随机变量每单位的概率。例如,它类似于物理学中质量密度的概念,定义为每单位体积的质量。为了找到质量,我们需要将密度乘以体积。在这里,为了找到概率,我们需要将 PDF 乘以随机变量的范围。