通过随机样本获得的数据的准确性如何?

机器算法验证 标准差 样本量 二项分布 标准错误
2022-03-07 18:33:05

我是统计新手,所以如果我在这里做出任何错误的假设,请告诉我。

N一群人。(例如N可以是 1,000,000。)有些人是红发女郎。我抽取了一个n人样本(比如 10 个),发现其中j的人是红发女郎。

关于人口中红发的总体比例,我能说些什么?我的意思是,我的最佳近似值可能是j/n,但该近似值的标准偏差是多少?

顺便说一句,这个被接受的术语是什么?

2个回答

您可以将其视为二项式试验——您的试验是对“红发”或“非读头”进行抽样。在这种情况下,您可以为您的样本比例 ( ) 建立一个置信区间,如 Wikipedia 上所述:j/n

95% 的置信区间基本上是说,使用相同的抽样算法,如果你重复这 100 次,真实比例将位于规定的区间内 95 次。

更新顺便说一句,我认为您正在寻找的术语可能是标准误差,即采样比例的标准偏差。在这种情况下,它是其中是您的估计比例。请注意,随着的增加,标准误差会减小。p(1p)npn

如果您的样本量不是您的示例中总体大小的一小部分,并且如果您在没有替换的情况下进行抽样 [Sw/oR],则 [估计] SE 的更好表达是nN

SE^=NnNp^q^n,

其中是估计的比例p^j/nq^=1p^

[术语称为 FPC [有限总体校正]。NnN

尽管 whuber 的评论在技术上是正确的,但似乎表明无法做任何事情来获得真实比例的置信区间。如果大到足以使正态近似合理[ ],则不太可能得到此外,如果样本量足够大,使用真实的正态近似是合理的,则使用也可以给出合理的近似。pnnp>10j=0SESE^

[如果您的非常小并且您使用 Sw/oR,您可能必须使用的精确超几何分布而不是正态近似。如果你做 SwR,的大小是无关紧要的,你可以使用精确的二项式方法来获得的 CI 。]njNp

在任何情况下,由于,人们总是可以保守地使用代替 如果您这样做,则需要 .03的估计 ME [误差范围 = 2 ]有多大!]。p(1p)1/412np^q^nn=1,111SE^±N