为什么将样本描述为 iid?

机器算法验证 随机变量 推理 样本 人口
2022-04-13 02:12:41

我希望能帮助理解 RV 的概念,以了解它们在从样本中推断人口的理论中的用途。

为了使用样本对总体进行推断,据说观察必须是独立同分布的 RV。我正在考虑加权骰子的例子。如果您想测试一个骰子是否称重,您可以购买一个并滚动 1,000 次。在每卷上,您可以记录生成的数字,以了解骰子的概率分布。掷一次骰子的结果可以表示为一个 RV,它从掷骰结果映射到集合中的一个整数{1,2,3,4,5,6}.

我知道房车X=f(x)是一个实值函数,它从它的域映射到实数的子集,所以如果我要在这个实验发生之前描述这个实验,我可以写下向量[X1,X2,,X1000]在哪里Xii[1,1000]是 iid 房车。我们可以想象掷骰子 1000 次,然后写下每个实验的结果,得到[x1,x2,,x1000],房车的实现。

虽然[X1,,X1000]是相同的,它们在文本中似乎被视为不同的 RV,我想知道为什么?如果我们认识到Xi=f(x)i(即每个Xi是完全相同的功能),以及原因Xi不必相等Xj为了ij是因为我们输入了不同的输入f(x), 那么这样说是不是同样有效X1,X2,,X1000代表对完全相同的 RV 的多个观察?

事实上,如果你有两个随机变量f(x)g(x), 但f(x)=g(x)并且它们具有相同的域和相同的范围,那么争辩说似乎令人困惑f(x)g(x)是不同的”?似乎实际发生的是你有一辆房车,f(x),这是描述掷骰子可能结果的一种方式,在每次掷骰时,您将域中的不同元素输入到函数中,从而获得不同的输出。那么任何人都可以向我解释将这个过程描述为 iid RV 的直觉,而不是来自同一 RV 的不同观察结果吗?

1个回答

您必须回想一下,随机变量只是将事件空间映射到概率空间的函数。对于来自单个观察的单个实现,考虑这样的映射被类似地定义似乎是多余的n=1000复制。然而,统计实验是基于在事件空间和概率空间上定义的一些汇总度量或“数据缩减”。IID 将这些概念简化为基本观察的笛卡尔积的事实是严格 IID 假设的产物。

指定每个随机变量可以让您形式化事件空间、定义估计量并计算它们的分布,并为结果设置概率模型。在许多实验中,X1,X2,,Xn既不是独立的,也不是同分布的,例如 Urn 模型。因此,您可以将概率表示为每个条件概率的乘积X1,X2|X1,X3|X2,X1等。事实上,许多有用的极限定理可以在存在温和相关的观察和/或分布差异的情况下推导出来,例如一般的 Lyapunov 或 Lindeberg-Feller 中心极限定理。