我们怎么知道总体方差?

机器算法验证 假设检验 方差 t检验 z检验
2022-03-21 15:27:33

在假设检验中,一个常见的问题是总体方差是多少?我的问题是我们怎么知道总体方差?如果我们知道整个分布,我们还不如知道整个人口的平均值。那么假设检验的意义何在?

4个回答

我不确定这个问题是否真的“经常”出现在 Stats 101(统计简介)之外。我不确定我是否见过。另一方面,在教授入门课程时,我们确实以这种方式呈现材料,因为它提供了一个合乎逻辑的进展:你从一个简单的情况开始,只有一个小组并且你知道差异,然后进展到你不知道的地方知道方差,然后前进到有两组(但方差相等)的地方,等等。

为了解决稍微不同的问题,您问如果我们知道方差,为什么我们还要进行假设检验,因为我们因此也必须知道均值。后一部分是合理的,但第一部分是一个误解:我们知道的平均值将是零假设下的平均值。这就是我们正在测试的。考虑@StephanKolassa 的智商分数示例。我们知道平均值是 100,标准差是 15;我们正在测试的是我们的小组(例如,左撇子红发,或者可能是介绍统计学的学生)是否与此不同。

通常我们不知道总体方差本身——但我们从不同的样本中得到了非常可靠的估计。例如,这里有一个评估企鹅平均体重是否下降的例子,我们使用来自小样本的平均值,但使用更大独立样本的方差。当然,这假设两个总体的方差相同。

一个不同的例子可能是经典的智商量表。使用非常大的样本,将这些归一化为平均值为 100,标准差为 15 。然后,我们可能会抽取一个特定样本(例如,50 个左撇子红发女郎),并使用 15^2 作为“已知”方差来询问他们的平均智商是否明显大于 100。当然,这再次引出了两个样本之间的方差是否真的相等的问题——毕竟,我们已经在测试均值是否不同,那么为什么方差应该相等呢?

底线:您的担忧是有效的,通常使用已知时刻的测试仅用于教学目的。在统计学课程中,通常紧随其后的是使用估计矩的测试。

了解总体方差的唯一方法是测量整个总体。

然而,测量整个人口通常是不可行的。它需要资源,包括资金、工具、人员和访问权限。出于这个原因,我们对总体进行抽样;这是衡量人口的一个子集。应仔细设计抽样过程,并以创建代表总体的样本总体为目标;给出两个关键考虑因素——样本量和抽样技术。

玩具示例:您希望估计瑞典成年人口的体重差异。瑞典人大约有 950 万,因此您不太可能出去一一衡量。因此,您需要测量一个样本总体,您可以从中估计真实的总体内方差。

您前往对瑞典人口进行抽样。要做到这一点,你去斯德哥尔摩市中心,恰好站在流行的虚构瑞典汉堡连锁店Burger Kungen外面。事实上,正在下雨和寒冷(一定是夏天)所以你站在餐厅里。在这里你称四个人。

很有可能,您的样本不能很好地反映瑞典的人口。你所拥有的是斯德哥尔摩人的样本,他们在一家汉堡餐厅。这是一种糟糕的抽样技术,因为它可能会通过不公平地表示您试图估计的总体来使结果产生偏差。此外,您的样本量很小,所以你有很高的风险选择四个处于极端人群中的人;要么很轻,要么很重。如果您对 1000 人进行了抽样,则不太可能导致抽样偏差;选择 1000 个不寻常的人的可能性远小于选择 4 个不寻常的人的可能性。更大的样本量至少可以让您更准确地估计 Burger Kungen 客户的体重均值和方差。

在此处输入图像描述

直方图说明了抽样技术的影响,灰色分布可以代表不吃 Burger Kungen 的瑞典人口(平均 85 公斤),而红色可能代表 Burger Kungen 顾客的人口(平均 100 公斤) ,蓝色的破折号可能是您抽样的四个人。正确的抽样技术需要公平地权衡总体,在这种情况下,大约 75% 的总体,因此 75% 的测量样本不应是 Burger Kungen 的客户。

这是许多调查的主要问题。例如,可能会对客户满意度调查或选举中的民意调查做出回应的人往往不成比例地由具有极端观点的人代表;意见不那么强烈的人在表达意见时往往更加保守。

例如,假设检验的重点是(并不总是)检验两个总体是否彼此不同。例如,Burger Kungen 的顾客是否比不在 Burger Kungen 用餐的瑞典人体重更重?准确测试的能力取决于适当的采样技术和足够的样本量。


用于测试的 R 代码使这一切发生:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

结果:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

有时总体方差是先验设置的例如,SAT 分数的标准差为 110,而IQ 测试的标准差为 15