随机变量
您不一定需要了解随机变量 (rv)的概念才能理解概率分布的概念,但随机变量的概念与概率分布的概念是严格相关的(假设每个随机变量都有一个相关的概率分布),因此,在继续之前,您应该熟悉 rv 的概念,它是从样本空间(实验的可能结果集)到可测量空间(您可以忽略可测量空间的定义并假设随机变量的共域是有限的数字集)。
概率测度、cdf、pdf 和 pmf
表达“概率分布”可能是模棱两可的,因为它可以用来指代不同的(即使相关的)数学概念,例如概率测度、累积分布函数 (cdf)、概率密度函数 (pdf)、概率质量函数 (pmf ) ) . 如果一个人使用“概率分布”这一表述,他(或她)有意(或无意)引用这些数学概念中的一个或多个,具体取决于上下文。但是,概率分布几乎总是概率度量或cdf的同义词。
例如,如果我说“考虑高斯概率分布”,在这种情况下,我可能指的是高斯分布的 cdf 或 pdf(或两者). 为什么我不能指的是高斯分布的 pmf?因为高斯分布是连续分布,所以是与连续随机变量相关的分布,即可以取连续值(如实数)的随机变量,所以高斯分布没有相关的pmf或,换句话说,没有为高斯分布定义 pmf。为什么我不简单地说“考虑高斯分布的pdf”。或“考虑高斯pdf”?因为它是不必要的限制,因为如果我说“考虑高斯分布”,我也隐含地考虑了高斯分布的 pdf 和 cdf。
同样,在离散分布的情况下,比如伯努利分布,只定义了cdf和pmf,所以伯努利分布没有关联的pdf
但是,重要的是要记住,连续分布和离散分布都有关联的 cdf,因此“概率分布”这一表达几乎总是(隐含地)指的是 cdf,它是基于概率度量定义的(如上所述)。
符号
同样,符号p(x)可能与“概率分布”这一表述一样模棱两可,因为它可以指代不同的(但又是相关的)概念。然而,p(x)通常指的是概率测度(所以它指的是概率分布,因为概率分布几乎总是概率测度的同义词)。在这种情况下,为简单起见,假设 rv 是离散的,p(x)是的简写p(X=x),也写为P(X=x)或者Pr(X=x), 在哪里X是房车,x一个实现_X(即 rv 的值X可以服用)和X=x代表一个事件。鉴于 rv 是一个函数,符号X=x可能看起来有点奇怪。
在离散 rv 的情况下,p(x)也可以指一个 pmf,它可以定义为pX(x)=P(X=x)(我加了下标X到p强调这是离散 rv 的 pmfX)。在连续 rv 的情况下,pdf 通常表示为f. 在离散和连续 rvs 的情况下,cdf 通常表示为F它被定义为FX(x)=P(X≤x), 在哪里P又是一个概率度量(或概率分布)。然后将连续 rv 的 pdf 定义为F. 至此,应该清楚为什么概率分布可以指代不同但相关的概念,但无论如何,它始终指的是概率测度。
经验分布
还有经验分布,它们是您收集的数据的分布。例如,如果您掷硬币 10 次,您将收集结果(“正面”或“反面”)。您可以计算硬币落在正面和反面的次数,然后将这些数字绘制为直方图,它本质上代表您的经验分布,其中形容词“经验”通常是指涉及实验的事实。
多变量 rvs 和分布
更复杂的是,还有多元随机变量和概率分布。但是,以上所有概念或多或少也适用于这种情况。
参数化分布
参数化概率分布,通常表示为pθ, 是一系列概率分布(由参数定义θ),而不是单一的概率分布。例如,N(0,1)指具有零均值和单位方差的单一高斯分布。然而,N(μ,σ), 在哪里θ=(μ,σ)是一个变量,是一个分布族(或集合)。
结论
总结一下,你的困惑是完全可以理解的,因为术语和符号的使用不一致,并且涉及到几个概念,我没有在这个答案中广泛涵盖(例如,我没有提到a的概念)概率空间)。如果您熟悉概率测度、随机变量、pmf、pdf、cdf 等概念,以及它们之间的关系,那么您将开始更好地了解全局。