从或根据分布对数据点进行采样意味着什么?

机器算法验证 机器学习 可能性 分布 数理统计 采样
2022-04-10 08:19:03

我知道这是一个非常基本的问题,但我从来没有上过统计学或应用概率的课程。我唯一的机会是在测度论课程上。现在我在做机器学习,到处都看到“来自分布的样本数据”这个短语,我对它的含义只有一个非常模糊的概念。

  • 部分问题在于采样类型违背了日常直觉。假设我们想要“从均匀分布中采样”,这对我来说意味着“随机选择”。这真的可以做到吗?

    假设您将几个球排成一行并告诉一个人“随机”选择一个,我认为直觉上,大多数人会选择第一个,或最后一个或中间但不会介于两者之间。换句话说,我们在日常生活中所经历的随机观念并不是“数学上的随机”,因为我们可以观察到一些行为模式。这也是为什么如果你告诉进行实验让一群人选择 1 到 10 之间的一个数字,最常见的答案不是 3 或 8,而是 5 之类的东西。

    所以我不理解抽样,因为这不是我的日常经验。我从未真正见过有人对均匀分布的任何东西进行采样,更不用说 Gumbel、高斯或几何或其他分布。

  • 抛开现实不谈,这将如何以数字方式完成。假设我向您展示以下陈述:

    “我们对数据进行抽样x高斯分布"

    这到底是什么意思?分布是随机变量的概率密度,它是一个数学函数,它告诉我找到数据点的概率x在一个区域上。它提供给我的只是关于数据可能是什么样子的一个非常模糊的想法,即我最有可能在哪里找到数据点。概率密度函数根本不能告诉我有多少数据点,它们的确切位置等等。现在从数学上讲,对数据进行采样意味着什么?“从或根据分布选择数据点”时实际做了什么?

  • 最后,实验产生的数据点总是有限的,而且总是离散的。自然界中可能没有什么是连续的或具有不可数基数的。当然,我们可以通过连续概率密度函数对这些数据点的分布进行建模。但是根据高斯,找到任何点的概率不是为零,即,Pr[X=x]=0,XN(μ,σ2)?. 那么根据概率分布“获得”任何点是不可能的,因为你永远不知道它们的确切位置?

有人可以告诉我你将如何“从分布中取样”吗?

作为一个假设的场景,我有20数据点,xiR2,我把它们放在欧几里得平面上的某个地方。假设您不知道它们的位置,您所知道的只是这些数据点的概率密度模型,这些数据点是从某种算法生成的。 实际上,让我们变得更难:您也不知道数据点的维度或数量。现在我说,采样一个数据点xi从这些N通过“在此处插入名称”分布的数据点数并返回该点xi对我来说,并向我证明您已从您声称从中采样的分布中对该数据点进行了采样。你会怎么做呢?

2个回答

1)人类是否可以无偏见地抽样是一个与是否可以进行随机抽样完全不同的问题。是的,可以进行随机抽样,尽管有些人会认为随机种子是部分确定的,但出于所有意图和目的,计算机生成的随机样本是足够随机的。

2)“从 x 分布中随机抽样”是什么意思?简而言之,这意味着收集一组由某种理论分布生成的 N 个点。对于正态分布,假设给定 mu 和 sigma,您选择符合这些参数的 N 个点。我意识到这是一个不能令人满意的答案,但考虑到许多算法都是从均匀分布中采样开始的,这很容易理解。U(0,5) 将产生一个介于 0 和 5 之间的数字,每个数字具有相同的概率。通过几个步骤,您可以绘制这些随机数并确保它们符合高斯,详见: 从正常采样

出于演示和模拟目的,从特定分布中采样是很常见的。大多数流行的统计软件包都内置了这些函数:在 R 中,你有 rnorm、rbinom、rpois、runif 等。如果你要使用这些函数对一个相当大的数据集进行采样,然后尝试用任何理论分布拟合它,你' d 发现最佳拟合将匹配生成它的那个。

3)我认为不能说实验中的数据点总是离散的。离散变量只能取特定值,并且特定度量的平均值可能取任意数量的有效数字。但是,你说得对,严格来说,概率密度中任何一个特定的、精确的值的概率都是微乎其微的。这就是为什么人们经常使用 CDF 而不是 PDF(一个值小于或等于某个值的概率更容易计算)。

4)您的最后一个问题和挑战格式不正确。人们不能指望从一个点证明甚至猜测生成分布。您需要一些重要的样本量才能做到这一点(在这种情况下,您可以很好地做到这一点)。

这可以通过参加蒙特卡洛模拟课程来回答,该课程深入探讨了这个主题。这是一组很好的幻灯片,涵盖了从特定分布生成样本的常用方法。还有更复杂的方法,如马尔可夫链蒙特卡罗和 copula 方法,用于具有依赖性和其他行为的非常复杂的分布。

这是一个经过充分研究的领域,应该不难补救,特别是如果您已经能够处理测量理论。相比之下,这是简单的事情。

现在,从数学上讲,为什么这些方法有效?他们的核心依赖于生成一系列实数值的能力Xi在区间[0,1]这样

limn|{i:Xi(a,b),in}|n=ba

此外,我们要求|COV(Xi,Xj)|0,ij

此类序列必须通过大量更严格的数学测试才能证明统计随机性(请参见此处此处)。

“随机数”实际上是*伪*随机数——它们是确定性地创建的,但在统计上与来自均匀分布的独立同分布观察无法区分(直到一些巨大的滞后)。

使用伪随机数,我们可以生成范围内的数字序列,例如[0,1]然后使用各种变换和算法将这些转换为我们使用的所有其他类型的随机变量和过程。

为什么[0,1]? 好吧,作为一个了解测度论的人,你知道P(Ω)=1,P()=0,1P(X|XΩ)0,因此在此范围内抽取随机样本可让您对概率测度的范围进行抽样。