第二个问题似乎要求一个未来观察的预测区间。在以下假设下很容易计算出这样的区间:(a)未来的观察来自相同的分布,(b)独立于先前的样本。当基础分布是正态分布时,我们只需要在两个高斯随机变量的差异周围建立一个区间。请注意,间隔将比t 检验或 z 检验的天真应用所建议的更宽,因为它也必须适应未来值的方差。这排除了我迄今为止看到的所有答案,所以我想我最好明确引用一个。该预测区间端点的 Hahn & Meeker 公式为
m±t×1+1n−−−−−√×s
其中 $m$ 是样本均值,$t$ 是学生 $t$(对于 $n-1$ df)的适当双边临界值,$s$ 是样本标准差,$n$ 是样本量。特别注意 $\sqrt{1+1/n}$ 而不是 $\sqrt{1/n}$ 的因子。这是一个很大的区别!m is the sample mean, t is an appropriate two-sided critical value of Student's t (for n−1 df), s is the sample standard deviation, and n is the sample size. Note in particular the factor of 1+1/n−−−−−−√ instead of 1/n−−−√. That's a big difference!
该区间与任何其他区间一样使用:请求的测试只是检查新值是否位于预测区间内。如果是,则新值与样本一致;如果不是,我们拒绝假设它是独立地从与样本相同的分布中提取的。存在从一个未来值到 $k$ 未来值或 $k$ 未来值的平均值(或最大值或最小值)等的概括。k future values or to the mean (or max or min) of k future values, etc., exist.
有大量关于预测区间的文献,尤其是在回归环境中。任何体面的回归教科书都会有公式。您可以从 Wikipedia 条目开始;-)。Hahn & Meeker 的Statistical Intervals仍在印刷中,可供阅读。
第一个问题有一个如此常规的答案,似乎没有人在这里给出它(尽管一些链接提供了详细信息)。为了完整起见,我将在结束时指出,当总体具有近似正态分布时,样本标准差分布为$n-1$ df 的缩放卡方变量的平方根,其期望是总体方差. 这意味着(大致)我们期望样本 sd 接近总体 sd,并且两者的比率通常为 $1 + O(1/\sqrt{n-1})$。与样本均值的并行语句(调用 CLT)不同,该语句相当强烈地依赖于正态总体的假设。n−1 df whose expectation is the population variance. That means (roughly) we expect the sample sd to be close to the population sd and the ratio of the two will usually be 1+O(1/n−1−−−−−√). Unlike parallel statements for the sample mean (which invoke the CLT), this statement relies fairly strongly on the assumption of a Normal population.