我已经阅读了 CrossValidated 上的现有答案(以及在线其他地方),但找不到我正在寻找的东西,但如果我错过了它们,请指出我现有的资源。
假设我有一个包含 N=1000 条记录的数据集,每条记录都可以手动采样并标记为“有效”或“无效”(或真/假、对/错等)。
我想达到给定的置信水平,即数据集中的所有记录都是有效的。当我对记录进行采样时,如果我发现一个无效的记录,我会返回并修改数据集的创建方式以纠正该问题和类似问题。
因此,在发现 Invalids、修复和重新创建数据集的一些迭代之后,我进行了一些仅包含 Valid 记录的采样。如果我想(比如说)99% 或 95% 确定所有记录都是有效的,我的样本必须有多大?(理想情况下是 N 的函数。)
我试过玩超几何测试(http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test) - 在那种情况下,我想知道 k 应该是什么,但我没有固定的 K 值. 相反,我想选择 k 使得 K 可能等于 N - 但是设置 K=N 显然可以达到 1 的概率!我也想知道我是否需要使用贝叶斯方法,但我对贝叶斯统计数据了解不够。