机器算法验证 - 什么是独立同分布随机变量？ - 吾爱随笔录

什么是独立同分布随机变量？

机器算法验证随机变量直觉独立同居

2022-02-12 01:35:30

您将如何向非技术人员解释 iid（独立同分布）？

4个回答

它的意思是“独立同分布”。

一个很好的例子是连续投掷一枚公平的硬币：硬币没有记忆，所以所有的投掷都是“独立的”。

并且每次投掷都是 50:50（正面：反面），所以硬币是并且保持公平 - 可以说，每次投掷的分布是并且保持不变：“相同分布”。

一个很好的起点是维基百科页面。

：：编辑：：

按照这个链接进一步探索这个概念。

非技术解释：

独立是一个非常笼统的概念。如果一个事件的发生没有给您任何关于另一个事件是否发生的信息，则称两个事件是独立的。特别是，我们归因于第二个事件的概率不受第一个事件发生的知识的影响。

独立事件的示例，可能同分布
考虑一个接一个地抛两个不同的硬币。假设您的拇指在掷第一个硬币时没有过度疲劳，那么可以合理地假设知道第一次掷硬币导致正面朝上不会影响您认为第二次抛硬币正面朝上的概率。两个事件被称为独立事件。
${first coin toss resulted in Heads} and {second coin toss resulted in Heads}$
- 如果我们知道，或者固执地坚持，这两个硬币有不同的出现正面的概率，那么事件的分布就不是相同的。
- 如果我们知道或假设两个硬币正面朝上的概率 p 相同，那么上述事件也是同的，这意味着它们都具有相同的概率。但请注意，除非，否则正面的概率不等于反面的概率。正如其中一条评论所指出的，“相同分布”与“同样可能”不同。 $p$ $p$ $p = \frac 12$
同分布非独立事件的示例
考虑一个装有两个球的瓮，一个黑色和一个白色。我们伸手进去，一个接一个地抽出两个球，随机选择第一个（这当然决定了下一个球的颜色）。因此，实验的两个同样可能的结果是（白色，黑色）和（黑色，白色），我们看到第一个球同样可能是黑色或白色，第二个球也同样可能是黑色或白色。换句话说，事件肯定是同分布的，但它们肯定是不是
${first ball drawn is Black} and {second ball drawn is Black}$ $\{\text{first ball drawn is Black}\}~~\text{and}~~\{\text{second ball drawn is Black}\}$ 独立事件。事实上，如果我们知道第一个事件已经发生，我们肯定知道第二个事件不会发生。因此，虽然我们对第二个事件概率的初步评估是 $\frac 12$ ，一旦我们知道第一个事件已经发生，我们最好修改我们对第二个抽到黑色的概率的评估 $\frac 12$ 到 $0$ .

随机变量是包含场景中所有可能事件的概率的变量。例如，让我们创建一个随机变量，它表示 100 次抛硬币中正面的数量。随机变量将包含获得 1 个正面、2 个正面、3 个正面......一直到 100 个正面的概率。让我们称这个随机变量X。

如果您有两个随机变量，那么它们是IID（独立同分布），如果：

如果他们是独立的。如上所述，独立性意味着一个事件的发生不提供有关另一事件的任何信息。例如，如果我在 100 次翻转后得到 100 个正面，那么在下一次翻转中得到正面或反面的概率是相同的。
如果每个随机变量共享相同的分布。例如，让我们从上面取随机变量 - X。假设X代表奥巴马将掷硬币 100 次。现在假设Y代表一位牧师将掷硬币 100 次。如果奥巴马和牧师以相同的概率掷硬币正面朝上，那么X和Y被认为是同分布的。如果我们从 Priest 或 Obama 重复抽样，那么这些样本被认为是同分布的。

旁注：独立也意味着您可以乘以概率。假设正面的概率是 p，那么连续两个正面的概率是 p*p 或 p^2。

此示例可以显示两个因变量可以具有相同的分布：

假设两个连续的实验涉及每 100 次有偏硬币的投掷，其中正面的总数被建模为第一个实验的随机变量 X1 和第二个实验的 X2。X1 和 X2 是参数为 100 和 p 的二项式随机变量，其中 p 是硬币的偏差。
因此，它们是相同分布的。但是它们不是独立的，因为前者的价值可以很好地说明后者的价值。也就是说，如果第一个实验的结果是 100 个正面，这告诉我们很多关于硬币的偏差，因此给我们提供了很多关于 X2 分布的新信息。
X2 和 X1 仍然是相同分布的，因为它们来自同一个硬币。

同样正确的是，如果 2 个随机变量是相关的，那么给定 X1 的 X2 的后验将永远不会与 X2 的先验相同，反之亦然。而当 X1 和 X2 独立时，它们的后验等于它们的先验。因此，当两个变量相互依赖时，对其中一个变量的观察会导致对第二个变量的分布进行修正估计。两者都可能来自同一个分布，只是我们在这个过程中更多地了解了这个分布的性质。所以回到抛硬币实验，最初在没有任何信息的情况下，我们可能会假设 X1 和 X2 遵循参数为 100 和 0.5 的二项式分布。但是在连续观察 100 个正面之后，我们肯定会修改我们对 p 参数的估计，使其非常接近 1。

其它你可能感兴趣的问题

上一篇如何从 randomForest::getTree() 实际绘制样本树？下一篇使用主成分分析 (PCA) 进行特征选择