学生检验需要样本标准差。但是,当只知道样本大小和样本平均值时,如何计算
例如,如果样本大小为且样本平均值为,那么我将尝试创建一个包含相同样本的列表,每个样本的值为。预期,样本标准差为。检验中产生除零问题。
附加数据:
ACME 北厂工人的平均收入为。据悉,名工人的随机样本年收入。这种差异在统计上是否显着?
我说人口平均值是是否正确?
学生检验需要样本标准差。但是,当只知道样本大小和样本平均值时,如何计算
例如,如果样本大小为且样本平均值为,那么我将尝试创建一个包含相同样本的列表,每个样本的值为。预期,样本标准差为。检验中产生除零问题。
附加数据:
ACME 北厂工人的平均收入为。据悉,名工人的随机样本年收入。这种差异在统计上是否显着?
我说人口平均值是是否正确?
这可能会让很多人感到惊讶,但要解决这个问题,您不一定需要估计s。事实上,您不需要了解有关数据传播的任何信息(尽管这当然会有所帮助)。例如,Wall、Boen 和 Tweedie 在 2001 年的一篇文章中描述了如何根据单次绘制找到任何单峰分布均值的有限置信区间。
在本例中,我们有一些基础可以将 112 的样本均值视为从近似正态分布(即 49 个薪水的简单随机样本的平均值的抽样分布)中抽取的样本。我们隐含地假设有相当多的工厂工人,并且他们的工资分配没有那么偏斜或多模态以至于使中心极限定理无法运行。然后平均值的保守 90% CI 向上延伸至
清楚地涵盖了 200 的真实平均值。(参见 Wall等人的公式 3。)鉴于可用信息有限以及此处所做的假设,因此我们不能得出 112 与 200 有“显着”差异的结论。
参考:“使用大小为 1 和 2 的样本的平均值的有效置信区间。” 美国统计学家,2001 年 5 月,卷。55,第 2 期:第 102-105 页。(PDF)
这看起来确实是一个有点做作的问题。49 是 7 的精确平方。对于 p<0.05 的双边检验,具有 48 DoF 的 t 分布的值非常接近 2 (2.01)。
如果 |sample_mean - popn_mean|,我们拒绝均值相等的原假设 > 2*StdError,即 200-112 > 2*SE 所以 SE < 44,即 SD < 7*44 = 308。
如果没有负工资,就不可能得到平均值为 112、标准差为 308(或更多)的正态分布。
鉴于工资有界,它们很可能是偏斜的,因此假设对数正态分布会更合适,但仍需要高度可变的工资以避免 t 检验中的 p<0.05。
假设 ACME 北厂有 999 名工人,每个工人的工资为 112,1 位 CEO 的工资为 88112。人口平均工资为从样本中抽取 CEO 的概率为工厂 49 人是(这是来自超几何分布),因此在 95% 的置信度下,您的总体样本平均值将为 112。事实上,通过调整工人/CEO 的比例,以及CEO,我们可以任意设定 49 名员工的样本抽取 CEO 的可能性,同时将总体均值固定为 200,样本均值固定为 112。因此,如果不对基本分布做出一些假设,您就无法绘制任何关于总体均值的推断。
我想你指的是一个样本 t 检验。它的目标是将样本的平均值与假设平均值进行比较。然后它计算(假设您的总体是高斯的)一个回答这个问题的 P 值:如果总体平均值确实是假设值,那么抽取一个平均值与该值一样远(或更远)的样本的可能性有多大你观察到了吗?当然,这个问题的答案取决于样本量。但这也取决于可变性。如果您的数据具有大量分散性,则它们与广泛的总体均值一致。如果您的数据非常严格,则它们与较小范围的总体均值一致。