这意味着在转换数据的一个样本 t 检验中使用

机器算法验证 t检验 数据转换
2022-03-24 09:01:44

我有几个负偏态的变量,所以我通过对它们进行平方来转换它们,从而使它们标准化。我想对转换后的变量进行 t 检验,但我对使用哪个意思有点困惑。这是我的数据的样子(请注意,U.S. Pop. mean来自用于对调查进行评分的手册,因此获得该平均值的数据不可用,只有平均值本身,因此一个样本 t 检验而不是两个样本 t 检验) :

     U.S. Pop. mean   Our Sample Mean  Mean of variables squared  Sqr rt of mean
PF            81.18             73.61                    6215.28           78.83
RP            80.53             70.28                    5913.92           76.90

我理解为什么我为转换平方的变量的平均值的平方根与非平方平均值不同(因为涉及的基础计算),但为了进行 t 检验并比较美国人口平均值对于我们拥有的样本均值,我是使用平方变量均值的平方根并将其与美国人口均值进行比较,还是将美国人口均值平方并将其与平方变量的均值进行比较。视觉上:

Either this:
Ho = 81.18^2  vs. 6215.28

Or:
Ho = 81.18  vs. 78.83

或者是其他东西?

2个回答

我认为平方不一定会做你想要的,即使它让事情看起来很正常。

如果您想测试总体均值与假设均值的相等性,那么通过测试转换后的变量,当原始总体均值是空值中给出的值时,您很可能会拒绝(也就是说,您可能会拒绝 true空值)。

考虑一些随机变量X其中有一些分布μ=μ0和非零方差。

Y=X2.

E(Y)=E(X2)=E(X)2+Var(X)=μ02+σX2

因此,测试H0:μY=μ02应该拒绝(并且在大样本中将基本上确定,即使原始假设H0:μX=μ0是真的。

除非您真正了解它们的行为方式,否则请小心混合假设检验和转换!


插图

以下是总体均值为 5 的偏左分布的样本:

均值为 5 的左偏分布样本

偶然地,样本均值非常接近总体均值:

> mean(y)
[2] 5.000247

现在我们把它平方。平均值与 25 相比如何?

> mean(y^2)
[1] 27.97773

几乎 28(Y 的总体方差约为 3,因此这是意料之中的)

因此,如果我们测试总体均值是否Y2是 25 ...我们可能会拒绝。(在这个特定样本中,p 值将仅为 0.08 左右)


要求提供代码;不幸的是,我没有保留用于生成示例的代码;这与示例有点相似,因为它左偏,均值为 5,方差很大(尽管没有原始的那么大):

n=100;x=ifelse(runif(n)<.5,pmax(runif(n),runif(n),runif(n))*5,runif(n,5,7.5))

这是使用该代码的 1000 个样本而不是 100 个样本的结果:

> mean(x);var(x);mean(x^2)
[1] 4.985436
[1] 2.35402
[1] 27.20623

> mean(x)^2+var(x)*(1-1/length(x))  # adjust for Bessel's correction 
[1] 27.20623

(撤销贝塞尔对样本的修正的调整使它像人口的代数一样工作)


[这与两个样本案例的相关性如何?如果从中抽取样本的两个总体没有相同的方差,则它们的平方均值将不同这与具有不同方差和等方差 t 检验的常见问题完全不同——这种情况下的检验受到的影响更大。]


那么该怎么办?我们必须从感兴趣的精确假设开始,并找出一种合理的方法(至少是一个很好的近似值)来测试它。

看来空值绝对是均等的。

我看到有几个选项:

  1. 按原样使用 t 检验;根据分布的偏斜和重尾程度,显着性水平和权力可能不会受到如此严重的影响。

  2. 为所讨论的变量提出一个合适的参数模型。

  3. 置换测试是可能的,但可能会带来困难;在通常的假设下,有必要在零下假设对称(这并不意味着样本应该看起来对称,只有当零为真时它应该是对称的)。

  4. 可能会采用某种形式的自举测试;如果这两个变量的样本量相当大,这可能是合理的。

正如@user20637 在下面的评论中指出的那样,您的平方数据与美国人口平方平均值的 t 检验结果并不一定意味着您的数据相对于美国人口发生了变化。你无法根据你所拥有的来评估它。相反,您只是在测试您的平均值是否高于固定点。除此之外,你只是在做假设。

如果您有足够的数据,并且可以假设您的数据分布很好地代表了从中提取它们的总体分布,那么您可以引导您的平均值以获得更好的测试。

另一种可能性是运行一组敏感性分析并报告结果范围。例如,如果报告的值是总体均值,但总体分布与您的一样偏斜怎么办?存在其他可能性。

您还可以通过使用贝叶斯分析提前了解您对总体所做的假设。