假设我正在运行一个可以有 2 个结果的实验,并且我假设 2 个结果的潜在“真实”分布是具有参数和的二项式分布:。
我可以计算标准误差,,从方差的形式 : 其中。所以,。对于我得到的标准错误:,但我在某处看到。我做错什么了?
假设我正在运行一个可以有 2 个结果的实验,并且我假设 2 个结果的潜在“真实”分布是具有参数和的二项式分布:。
我可以计算标准误差,,从方差的形式 : 其中。所以,。对于我得到的标准错误:,但我在某处看到。我做错什么了?
很容易混淆两个二项分布:
npq 是成功的次数,而 npq/n = pq 是成功的比率。这导致不同的标准误差公式。
我们可以这样看:
假设我们正在做一个实验,我们需要投掷一枚无偏硬币次。实验的总体结果是,它是单个抛掷的总和(例如,头部为 1,尾部为 0)。因此,对于这个实验,,其中是单个投掷的结果。
在这里,每次抛掷的结果遵循伯努利分布,而总体结果遵循二项分布。
完整的实验可以被认为是一个单一的样本。因此,如果我们重复实验,我们可以得到另一个值,这将形成另一个样本。的所有可能值将构成完整的总体。
回到遵循伯努利分布的单次抛硬币,方差由给出,其中是正面(成功)的概率,。
的方差,。但是,对于所有单个伯努利实验,。由于实验中有次抛掷或伯努利试验,因此。这意味着具有方差。
现在,样本比例由给出,它给出了“成功或正面的比例”。在这里,是一个常数,因为我们计划对总体中的所有实验进行相同的抛硬币次数。
因此,。
(样本统计量)的标准误差
我认为最初的帖子中标准误差和标准偏差之间也存在一些混淆。标准差是分布方差的平方;标准误差是样本的估计平均值与该分布的标准偏差,即如果您无限次对该样本进行观察,您将观察到的平均值的分布。前者是分布的内在属性;后者是衡量您对分布属性(平均值)的估计质量的度量。当您进行 N 次伯努利试验以估计未知的成功概率时,在看到 k 次成功后,您估计的 p=k/N 的不确定性是估计比例的标准误差,即 sqrt(pq/N) 其中 q=1 -p。真实分布的特征在于参数 P,即成功的真实概率。