关于样本方差和标准差的基本问题

机器算法验证 标准差 方差 正态假设 样本 无偏估计器
2022-04-14 00:33:03

假设有一个非常大(无限?)具有未知均值和方差的正态分布值总体。

还假设我们有一个样本S,其中包含来自整个总体的n 个值。我们可以计算该样本的均值和标准差(我们使用n-1进行标准差计算)。

第一个也是最重要的问题是 stdev(S) 与整个总体的标准差有何关系?

这个问题的一个例子是第二个问题:

假设我们有一个额外的数字x,我们想测试它是否是相对于一般人群的。我的直观方法是按如下方式计算 Z:

Z=xmean(S)stdev(S)

如果n>30则根据标准分布对其进行测试,如果n<30则根据 t 分布对其进行测试

但是,这种方法不考虑样本大小n 。如果只有单个样本S ,解决这个问题的正确方法是什么?

4个回答

第二个问题似乎要求一个未来观察的预测区间。在以下假设下很容易计算出这样的区间:(a)未来的观察来自相同的分布,(b)独立于先前的样本。当基础分布是正态分布时,我们只需要在两个高斯随机变量的差异周围建立一个区间。请注意,间隔将比t 检验或 z 检验的天真应用所建议的更宽,因为它也必须适应未来值的方差。这排除了我迄今为止看到的所有答案,所以我想我最好明确引用一个。该预测区间端点的 Hahn & Meeker 公式为

m±t×1+1n×s

其中 $m$ 是样本均值,$t$ 是学生 $t$(对于 $n-1$ df)的适当双边临界值,$s$ 是样本标准差,$n$ 是样本量。特别注意 $\sqrt{1+1/n}$ 而不是 $\sqrt{1/n}$ 的因子。这是一个很大的区别!m is the sample mean, t is an appropriate two-sided critical value of Student's t (for n1 df), s is the sample standard deviation, and n is the sample size. Note in particular the factor of 1+1/n instead of 1/n. That's a big difference!

该区间与任何其他区间一样使用:请求的测试只是检查新值是否位于预测区间内。如果是,则新值与样本一致;如果不是,我们拒绝假设它是独立地从与样本相同的分布中提取的。存在从一个未来值到 $k$ 未来值或 $k$ 未来值的平均值(或最大值或最小值)等的概括。k future values or to the mean (or max or min) of k future values, etc., exist.

有大量关于预测区间的文献,尤其是在回归环境中。任何体面的回归教科书都会有公式。您可以从 Wikipedia 条目开始;-)。Hahn & Meeker 的Statistical Intervals仍在印刷中,可供阅读。

一个问题有一个如此常规的答案,似乎没有人在这里给出它(尽管一些链接提供了详细信息)。为了完整起见,我将在结束时指出,当总体具有近似正态分布时,样本标准差分布为$n-1$ df 的缩放卡方变量的平方根,其期望是总体方差. 这意味着(大致)我们期望样本 sd 接近总体 sd,并且两者的比率通常为 $1 + O(1/\sqrt{n-1})$。与样本均值的并行语句(调用 CLT)不同,该语句相当强烈地依赖于正态总体的假设。n1 df whose expectation is the population variance. That means (roughly) we expect the sample sd to be close to the population sd and the ratio of the two will usually be 1+O(1/n1). Unlike parallel statements for the sample mean (which invoke the CLT), this statement relies fairly strongly on the assumption of a Normal population.

我发现看到你在问什么相当棘手:

  1. 如果您想知道 Var(S) 是否与总体方差不同,请参阅这个先前的答案
  2. 如果要确定均值 (S) 和均值 (X) 是否相同,请查看独立双样本 t 检验
  3. 如果您想测试均值(S)是否等于总体均值,请参见上面的@Srikant 答案,即单样本 t-test

我的第一个答案充满了错误。这是一个更正的版本:

正确的测试方法如下:

z = (mean(S) - mu) / (stdev(S) / sqrt(n) )

请参阅:学生 t 检验

请注意以下事项:

  1. 当您将标准差除以样本量的平方根时,就会考虑样本量。

  2. 您还应该注意,z 检验用于测试总体的真实平均值是否为某个特定值。在上述统计数据中用 x 代替 mu 是没有意义的。

我认为您需要先确定您要问的问题,然后才能计算出答案。我认为这个问题太模糊了,无法回答:“测试它是否是针对普通人群的”。

我认为您可以回答的唯一问题是:如果新值来自与其他人相同的总体,那么它与样本均值相距甚远(或更远)的机会是多少?这就是你的方程式将开始回答的问题,尽管它并不完全正确。这是一个包含 n 的校正方程。

t = (x - mean(S))/(stdev(S)/sqrt(n))

计算相应的 P 值(具有 n-1 个自由度),您就已经回答了这个问题。