比较具有不等方差和非常不同的样本量的均值

机器算法验证 统计学意义 t检验 意思是 样本量 小样本
2022-03-25 11:50:07

我试图比较男性和女性之间相同变量的均值。这是统计数据:

     N        Mean        Variance    Coef. Var.     Gender    
   2000      26.12         10.89         0.13         Male        
     50      56.10         25.01         0.09        Female

这两个变量都不是正态分布的,但是记录日志使它非常接近。测试男性和女性之间均值的适当方法是什么?我应该使用日志吗?使用 Stata 的任何其他建议都会有所帮助。

我最初的反应是女性的表现比男性好,但我希望在统计上更加严谨。

3个回答

比较两个样本均值的传统检验是 t 检验。没有关于样本大小的假设,所以如果它们不同也没关系。

但是,您触及了正态假设。即使总体不是正态分布的,中心极限定理也允许我们随着样本量的增加推断正态性。这意味着您的测试将是近似的,但女性的样本量有点低。

最后,对于原始数据和记录数据,t 检验的结果会有所不同。您是否有根据您的数据使用对数的特定原因?也许您想测试另一个关于数据日志行为的假设?如果没有更深层次的含义,请不要简单地创建正态曲线,而是为了好玩比较两个结果之间的差异!

取对数并在对数尺度上测试平均值通常不会对应于原始尺度上的平均值差异。

但是

[编辑:我的评论适用于数据的早期版本,不适用于目前存在于问题中的数据。因此,我的评论确实适用于两个接近对数正态样本的变异系数非常相似的情况,而不是目前的情况。]

两个样本中的变异系数几乎相同,这确实表明您可能会认为它们具有尺度偏移;如果您认为对数看起来相当接近正态,那么这将表明具有共同变异系数的对数正态分布。在这种情况下,对数尺度上的平均值差异实际上表示原始尺度上的尺度偏移(因此其中一个平均值是原始尺度上另一个平均值的倍数)。

也就是说,在对数尺度上方差和正态分布相等的假设下,拒绝均值相等意味着原始尺度上的均值具有不为 1 的比率。

这似乎是一个合理的假设。

不过,您还可以做其他事情。

从数据中你不能推断出男性和女性之间的差异是相同的,事实上几乎可以肯定相反。此外,由于 50 确实有点低,假设你不能假设正常。

将每个女性的价值与男性价值的中位数进行比较。如果中位女性既不比中位男性好也不差(零假设),那么每个女性将有 1/2 的机会比中位男性好。K 或更少的女性比中位男性更差的机会是在这里,我们认为男性中位数的误差可以忽略不计,因为男性比女性多得多,并且男性之间的差异小于女性之间的差异。P(K)=250m=0K(50K)