什么是机器学习中的概率分布?

人工智能 机器学习 术语 定义 概率分布 符号
2021-10-24 16:06:52

如果我们在机器学习领域学习或工作,那么我们经常会遇到“概率分布”这个术语。我知道数学中的概率、条件概率和概率分布/密度是什么意思,但它在机器学习中的含义是什么?

以这个例子为例x是一个元素D,这是一个数据集,

xD

假设我们的数据集(D) 是具有大约 70,000 张图像的 MNIST,因此x成为这 70,000 张图像的任何图像。

在许多论文和网络文章中,这些术语通常表示为概率分布

p(x)

或者

p(zx)

  • 做什么p()甚至意味着,什么样的输出呢p()给?
  • 是输出p()标量、向量还是矩阵?
  • 如果输出是向量或矩阵,那么这个向量/矩阵的所有元素的总和总是1?

这是我的理解,

p()是一个映射整个数据集真实分布的函数D. 然后 p(x)给出一个标量概率值给定x, 这是根据实际分布计算的p(). 如同p(H)=0.5在掷硬币实验中D={H,T}.

p(zx)是将整个数据集的真实分布映射到向量的另一个函数z给定一个输入xz向量是一个概率分布,总和为1.

我的假设正确吗?

一个例子是VAE 的数据生成过程,用这个等式表示

pθ(x(i))=pθ(x(i)|z)pθ(z)dz

2个回答

随机变量

您不一定需要了解随机变量 (rv)的概念才能理解概率分布的概念,但随机变量的概念与概率分布的概念是严格相关的(假设每个随机变量都有一个相关的概率分布),因此,在继续之前,您应该熟悉 rv 的概念,它是从样本空间(实验的可能结果)到可测量空间(您可以忽略可测量空间的定义并假设随机变量的共域是有限的数字集)。

概率测度、cdf、pdf 和 pmf

表达“概率分布”可能是模棱两可的,因为它可以用来指代不同的(即使相关的)数学概念,例如概率测度累积分布函数 (cdf)概率密度函数 (pdf)概率质量函数 (pmf ) ) . 如果一个人使用“概率分布”这一表述,他(或她)有意(或无意)引用这些数学概念中的一个或多个,具体取决于上下文。但是,概率分布几乎总是概率度量cdf的同义词。

例如,如果我说“考虑高斯概率分布”,在这种情况下,我可能指的是高斯分布的 cdf 或 pdf(或两者). 为什么我不能指的是高斯分布的 pmf?因为高斯分布是连续分布,所以是与连续随机变量相关的分布,即可以取连续值(如实数)的随机变量,所以高斯分布没有相关的pmf或,换句话说,没有为高斯分布定义 pmf。为什么我不简单地说“考虑高斯分布的pdf”。或“考虑高斯pdf”?因为它是不必要的限制,因为如果我说“考虑高斯分布”,我也隐含地考虑了高斯分布的 pdf 和 cdf。

同样,在离散分布的情况下,比如伯努利分布,只定义了cdf和pmf,所以伯努利分布没有关联的pdf

但是,重要的是要记住,连续分布和离散分布都有关联的 cdf,因此“概率分布”这一表达几乎总是(隐含地)指的是 cdf,它是基于概率度量定义的(如上所述)。

符号

同样,符号p(x)可能与“概率分布”这一表述一样模棱两可,因为它可以指代不同的(但又是相关的)概念。然而,p(x)通常指的是概率测度(所以它指的是概率分布,因为概率分布几乎总是概率测度的同义词)。在这种情况下,为简单起见,假设 rv 是离散的,p(x)是的简写p(X=x),也写为P(X=x)或者Pr(X=x), 在哪里X是房车,x一个实现_X(即 rv 的值X可以服用)和X=x代表一个事件鉴于 rv 是一个函数,符号X=x可能看起来有点奇怪。

在离散 rv 的情况下,p(x)也可以指一个 pmf,它可以定义为pX(x)=P(X=x)(我加了下标Xp强调这是离散 rv 的 pmfX)。在连续 rv 的情况下,pdf 通常表示为f. 在离散和连续 rvs 的情况下,cdf 通常表示为F它被定义为FX(x)=P(Xx), 在哪里P又是一个概率度量(或概率分布)。然后将连续 rv 的 pdf 定义为F. 至此,应该清楚为什么概率分布可以指代不同但相关的概念,但无论如何,它始终指的是概率测度

经验分布

还有经验分布,它们是您收集的数据的分布。例如,如果您掷硬币 10 次,您将收集结果(“正面”或“反面”)。您可以计算硬币落在正面和反面的次数,然后将这些数字绘制为直方图,它本质上代表您的经验分布,其中形容词“经验”通常是指涉及实验的事实。

多变量 rvs 和分布

更复杂的是,还有多元随机变量和概率分布但是,以上所有概念或多或少也适用于这种情况。

参数化分布

参数化概率分布,通常表示为pθ, 是一系列概率分布(由参数定义θ),而不是单一的概率分布。例如,N(0,1)具有零均值和单位方差的单一高斯分布。然而,N(μ,σ), 在哪里θ=(μ,σ)是一个变量,是一个分布族(或集合)。

结论

总结一下,你的困惑是完全可以理解的,因为术语和符号的使用不一致,并且涉及到几个概念,我没有在这个答案中广泛涵盖(例如,我没有提到a的概念)概率空间)。如果您熟悉概率测度、随机变量、pmf、pdf、cdf 等概念,以及它们之间的关系,那么您将开始更好地了解全局。

ML 中的概率分布与其他地方的概率分布相同。

概率分布(或概率函数,或概率质量函数,或概率密度函数)是接受某些特定集合的输入元素的任何函数xX, 并生成 0 到 1(含)之间的实数值作为输出,使得xXp(x)=1或对于离散集,xXp(x)=1.

这些分布也可能更复杂。例如,条件概率分布P(Y|X)或联合概率分布P(X,Y)接受多个输入,但同样受限于产生 0 到 1 范围内的输出,并确保所有可能输入的输出总和恰好为 1。

当满足这些条件时,函数输出可以解释为对输入事件将发生的次数的百分比的信念,在所有事件中,或者作为对输入事件已经发生与其他事件的相信程度(即它可以理解为概率)。