我学到的条件如下:
如果样本量小于 15,如果样本大致对称、单峰且没有异常值,则允许进行 t 检验。
如果样本量至少为 15,则可以使用 t 检验忽略异常值或强偏度的存在。
对于较大的样本,如果样本大于 30 但小于总体的 10%,即使分布偏斜,也可以使用 t 检验。
当样本量大于总体大小的 10% 时,为什么不能使用 t 检验?那会发生什么?你使用z检验吗?
我学到的条件如下:
如果样本量小于 15,如果样本大致对称、单峰且没有异常值,则允许进行 t 检验。
如果样本量至少为 15,则可以使用 t 检验忽略异常值或强偏度的存在。
对于较大的样本,如果样本大于 30 但小于总体的 10%,即使分布偏斜,也可以使用 t 检验。
当样本量大于总体大小的 10% 时,为什么不能使用 t 检验?那会发生什么?你使用z检验吗?
首先,您必须了解为什么要针对相同的数量进行两次测试。假设您有一个样本,取自未知分布,并且您想测试分布的均值是否为零。
所以你计算样本平均值。你计算样本方差。最后,考虑到 ,您可以通过标准误差。
有两种情况:
基础分布是正态的;那么的分布类似于分布(如果均值为零),并且您使用检验。这是一个精确的程序。
您不知道基础分布是否正常。如果足够大,中心极限定理告诉您{\overline x \over s/\ sqrt近似分布,就像标准正态分布(如果均值为零),并且您使用检验。这是一个大概的过程。
您所说的只是帮助您确定是否检验所需假设的指南。
我没有得到规则 3。对我来说,这只是错误的。如果分布偏斜,则不正常,您没有理由认为检验会比检验表现更好。
如果您愿意,您实际上可以使用 t 检验——它只是更保守。随着样本量的增加,中心极限定理表明,无论基本人口分布如何,均值分布接近正态分布。因此,您可以使用 Z 检验,因为它将您的统计数据与正态分布进行比较。
我相信第三条规则的原因是它需要遵守 CLT,因此几乎是正常的。CLT 指出,对于大抽样框,抽样分布模型是相对正常的,无论总体分布如何,只要抽样个体是独立的。
这个 10% 的规则是通过仅对一小部分总体进行抽样来保护抽样个体的独立性,而无需替换抽样,确保任何关系通常可以通过随机化最小化。
如果你想了解为什么选择这个百分比的机制,德克萨斯大学在这里更深入地解释它:https ://web.ma.utexas.edu/users/mks/M358KInstr/TenPctCond.pdf [WHERE DOES THE 10 % CONDITION COME FROM?][1],但我的一般信息来自“Stats,Modeling the World”第一版。
我认为没有必要进行比较。我相信 T 检验和 Z 检验在不同的条件下运行。T 检验是参数,而 Z 检验是已知的四个非参数等效项之一。如果我的假设错误,请有人纠正我。