数据是从概率分布 P?

机器算法验证 可能性 采样
2022-04-02 12:33:10

说数据来自概率分布 P 是什么意思?

3个回答

随机变量是采用不同值的东西,其中它可以采用的值具有一定的随机性。概率分布为该随机变量的每个可能结果分配一个概率。在您的情况下,您正在观察可能不同的数据。换句话说,如果你用相同的样本量采集另一个样本,你可能会观察到不同的东西。因此,您观察到的内容被认为是随机的。

如果您的随机变量是离散的,则概率分布会为您提供随机变量可以采用的每个离散值的概率的规则。如果您的随机变量是连续的,它会为您提供随机变量可以采用的任何值范围的概率的规则。

概率分布将可能性分配给其域中的值。

考虑它的一个好方法是六面骰子。骰子为每一面分配概率:我们有六分之一的机会看到每一面。然而,在实践中,我们会掷骰子 6 次,并且不可能看到所有 6 个面。

相反,掷骰子给我们的边是采样(或绘制)IID(独立同分布)。这意味着:每个掷骰子都独立于下一个掷骰子,并且每个掷骰子具有相同的概率分布。

因此,这次获得“1”不会影响下一次获得“1”。

最终,随着掷骰子的次数越来越多,你看到每一面的次数大约是你掷骰子次数的 1/6。

你可以用下面的 python 代码说服自己:

import matplotlib.pyplot as plt
from numpy.random import randint
X = 10
plt.hist( randint(1,6,X) );
plt.show()

增加 X 并观察直方图如何变化。

这个类比也适用于连续域。在离散域中,我们说每个离散项都有一定的概率质量在连续域中,值的范围(例如 1.0-2.0)具有概率密度但类比基本相同。IID 样本越多,它看起来就越像概率分布。

通常,这意味着您让计算机生成介于 0 和 1 之间的伪随机数,然后将其用作分布 P的累积密度函数 (CDF) 的逆函数的输入。

下图显示了均值 = 0 且标准差 = 1 的正态分布的 CDF:

在此处输入图像描述

计算机正在生成 0 和 1 之间的伪随机数,并将其通过 CDF 的逆进行正态分布。您可以看到 Y 轴上区间 [0,1] 中的大多数值如何映射到接近均值的位置,这反映了正态分布的特征。例如,蓝线显示 [~0.15, ~0.85] [-1,1],这意味着 Y 轴上 [0,1] 中的大多数数字最终都聚集在平均值周围。

IMO,当一篇论文或一本书说这些“数据来自概率分布 P”时,这意味着“我们生成了这些数据,因此它符合我们关于 P 的理论概念”。

另一种方法是从一些真实人口中抽取,即真实样本。然后你不知道分布,并且必须推断它(花式猜测)。