机器算法验证 - 取样有无更换？ - 吾爱随笔录

取样有无更换？

机器算法验证采样

2022-03-31 20:41:20

我不太了解采样方法。

我有一个庞大的人口规模 2,000,000。我使用了其中一个样本量计算器。它说我需要大约 10,000 个样本量。

我试图找到人口成功的概率p。对我来说，测试所有 2,000,000 名人口是不可行的。这就是我采样的原因。

我假设样本量计算器意味着一个没有替换的简单随机样本。我读过一个带有替换的简单随机样本可确保两个变量之间的协方差为 0 ~~，即独立~~。

什么时候应该选择有替换而不是没有替换？

如果我们进行替换抽样，那么我们只是在执行伯努利试验。我想这使得应用统计工具（哪个？）更容易。

再次，在这里采样无知。

1个回答

从有限总体的角度来看，通过带放回抽样 (SRSWR) 和不带放回抽样 (SRSWOR) 获得的样本均值或总数的方差差异由有限总体校正 (FPC) 捕获：其中是样本大小，是人口规模，FPC 是括号。对于您的问题，FPC = 1 - 10,0000/2,000,000 = 1 - 1/200 = 0.995，坦率地说，我不会费心去追究这个因素，并将其视为等于 1。我通常告诉我的学生开始时跟踪 FPC 。

V_{S R S W O R} [\bar{y}] = (1 - \frac{n}{N}) V_{S R S W R} [\bar{y}]

$\mathbb{V}_{\rm SRSWOR}[\bar y] = \Bigl( 1 - \frac{n}{N}\Bigr) \mathbb{V}_{\rm SRSWR}[\bar y]$

n

$n$

N

$N$

n / N \geq 0.1

$n/N \ge 0.1$

有时，SRSWOR 和 SRSWR 之间的决定是物流的决定，即取决于组织其中一个或另一个的难易程度。绘制 SRSWOR 的一种简单方法是为每条记录，按排序并取前个条目。绘制 SRSWR 的一个简单方法是产生随机数并采用索引为单位（括号代表整数部分）。取决于您的人口（称为框架 $U_i \sim \mbox{i.i.d. } U[0,1]$ $i=1,\ldots,N$ $U_I$ $n$ $n$ $V_j \sim \mbox{i.i.d. } U[0,1]$ $\{ [N V_j+1], j=1, \ldots, n \}$ 在抽样术语中）是有组织的，一个可能比另一个更容易，或者根本不可行。

我给出的标准抽样参考是Lohr (2009)。

其它你可能感兴趣的问题

上一篇当我有 4 个预测变量时如何计算部分依赖？下一篇如何在特征选择和分类中对跨越三个数据集的两种算法进行统计比较？