我知道这是一个非常基本的问题,但我从来没有上过统计学或应用概率的课程。我唯一的机会是在测度论课程上。现在我在做机器学习,到处都看到“来自分布的样本数据”这个短语,我对它的含义只有一个非常模糊的概念。
部分问题在于采样类型违背了日常直觉。假设我们想要“从均匀分布中采样”,这对我来说意味着“随机选择”。这真的可以做到吗?
假设您将几个球排成一行并告诉一个人“随机”选择一个,我认为直觉上,大多数人会选择第一个,或最后一个或中间但不会介于两者之间。换句话说,我们在日常生活中所经历的随机观念并不是“数学上的随机”,因为我们可以观察到一些行为模式。这也是为什么如果你告诉进行实验让一群人选择 1 到 10 之间的一个数字,最常见的答案不是 3 或 8,而是 5 之类的东西。
所以我不理解抽样,因为这不是我的日常经验。我从未真正见过有人对均匀分布的任何东西进行采样,更不用说 Gumbel、高斯或几何或其他分布。
抛开现实不谈,这将如何以数字方式完成。假设我向您展示以下陈述:
“我们对数据进行抽样高斯分布"
这到底是什么意思?分布是随机变量的概率密度,它是一个数学函数,它告诉我找到数据点的概率在一个区域上。它提供给我的只是关于数据可能是什么样子的一个非常模糊的想法,即我最有可能在哪里找到数据点。概率密度函数根本不能告诉我有多少数据点,它们的确切位置等等。现在从数学上讲,对数据进行采样意味着什么?“从或根据分布选择数据点”时实际做了什么?
最后,实验产生的数据点总是有限的,而且总是离散的。自然界中可能没有什么是连续的或具有不可数基数的。当然,我们可以通过连续概率密度函数对这些数据点的分布进行建模。但是根据高斯,找到任何点的概率不是为零,即,?. 那么根据概率分布“获得”任何点是不可能的,因为你永远不知道它们的确切位置?
有人可以告诉我你将如何“从分布中取样”吗?
作为一个假设的场景,我有数据点,,我把它们放在欧几里得平面上的某个地方。假设您不知道它们的位置,您所知道的只是这些数据点的概率密度模型,这些数据点是从某种算法生成的。 实际上,让我们变得更难:您也不知道数据点的维度或数量。现在我说,采样一个数据点从这些通过“在此处插入名称”分布的数据点数并返回该点对我来说,并向我证明您已从您声称从中采样的分布中对该数据点进行了采样。你会怎么做呢?