机器算法验证 - 我应该对高度偏斜的数据使用 t 检验吗？请问有科学依据吗？ - 吾爱随笔录

我应该对高度偏斜的数据使用 t 检验吗？请问有科学依据吗？

机器算法验证假设检验 t检验非参数意思是偏度

2022-02-10 01:38:46

我有来自高度偏斜（看起来像指数分布）数据集的关于用户参与（例如：帖子数量）的样本，这些样本具有不同的大小（但不少于 200），我想比较它们的平均值。为此，我使用了两个样本的非配对 t 检验（当样本具有不同的方差时，使用韦尔奇因子进行 t 检验）。正如我所听说的，对于非常大的样本，样本不是正态分布并不重要。

有人在回顾我所做的事情时说，我使用的测试不适合我的数据。他们建议在使用 t 检验之前对我的样本进行对数转换。

我是一个初学者，所以用“参与指标的日志”来回答我的研究问题对我来说听起来真的很困惑。

他们错了吗？我错了吗？如果他们错了，是否有我可以引用/展示给他们的书或科学论文？如果我错了，我应该使用哪个测试？

1个回答

我不会将“指数”称为特别高度偏斜。例如，它的对数明显左偏，矩偏度仅为 2。

1)对指数数据使用 t 检验和 $n$ 接近500就 可以了：

a) 检验统计量的分子应该没问题：如果数据是具有共同尺度的独立指数（并且没有明显比那个更重），那么它们的平均值是伽马分布的，形状参数等于观察次数。对于大于约 40 左右的形状参数，它的分布看起来非常正常（取决于您需要精确到尾部的距离）。

这可以用数学证明，但数学不是科学。当然，您可以通过模拟凭经验检查它，但如果您对指数有误，您可能需要更大的样本。这就是当 n=40 时指数数据的样本总和（以及因此样本均值）的分布：

在此处输入图像描述

非常轻微的歪斜。这种偏度随着样本大小的平方根而减小。所以在 n=160 时，它是偏斜的一半。在 n=640 时，它是偏斜的四分之一：

在此处输入图像描述

通过将其翻转到平均值并将其绘制在顶部，可以看出这是有效对称的：

在此处输入图像描述

蓝色是原始的，红色是翻转的。如您所见，它们几乎是巧合。

b）更重要的是，两个这样的伽马分布变量（例如你用指数方法得到的）的差异更接近正常，并且在空值（这是你需要它的地方）下，偏度将为零。这是为了 $n=40$ ：

在此处输入图像描述

也就是说，t 统计量的分子非常接近正态分布，而样本量远小于 $n=500$ .

c) 然而，真正重要的是整个统计量在零值下的分布。分子的正态性不足以使 t 统计量具有 t 分布。但是，在指数数据的情况下，这也不是什么大问题：

在此处输入图像描述

红色曲线是 df=78 的 t 统计量分布，直方图是使用 Welch t 检验对指数样本得到的结果（在均值为零的情况下；实际的 Welch-Satterthwaite 自由度在给定的样本往往会比 78 小一点）。特别是，您的显着性水平区域中的尾部区域应该是相似的（除非您有一些非常不寻常的显着性水平，它们是）。请记住，这是在 $n=40$ ，不是 $n=500$ . 这要好得多 $n=500$ .

但是请注意，对于实际指数数据，只有当均值不同时，标准偏差才会不同。如果是指数假设，那么在零值下，没有必要特别担心不同的总体方差，因为它们只发生在备选方案下。因此，等方差 t 检验应该仍然可以（在这种情况下，您在直方图中看到的上述良好近似值甚至可能会稍微好一些）。

2）记录日志可能仍然能让你理解它，尽管

如果 null 为真，并且您有指数分布，则您正在测试比例参数的相等性。测井方法的位置测试将测试比例参数的测井与测井中的位置偏移选择（原始值的比例变化）的相等性。如果你得出这样的结论 $\log\lambda_1\neq\log\lambda_2$ 在日志中的位置测试中，这在逻辑上与得出的结论相同 $\lambda_1\neq\lambda_2$ . 因此，使用 t 检验测试日志可以很好地作为对原始假设的检验。

[如果您在日志中进行该测试，我倾向于建议在这种情况下进行等方差测试。]

所以 - 仅仅通过一两句话的干预来证明连接的合理性，类似于我上面所说的 - 你应该能够写出你的结论，而不是关于参与度量的日志，而是关于参与度量本身。

3）还有很多其他的事情你可以做！

a) 你可以做一个适合指数数据的测试。很容易推导出基于似然比的检验。碰巧的是，对于指数数据，您会在单尾情况下获得针对这种情况的小样本 F 检验（基于均值比率）；对于小样本量，两个尾 LRT 通常不会在每个尾中具有相等的比例。（这应该比 t 检验具有更好的功效，但 t 检验的功效应该是相当合理的，我希望您的样本量不会有太大差异。）

b）您可以进行排列测试 - 如果您愿意，甚至可以基于 t 测试。所以唯一改变的是 p 值的计算。或者你可以做一些其他的重采样测试，比如基于引导的测试。这应该具有很好的能力，尽管它部分取决于您选择的相对于您拥有的分布的测试统计量。

c) 您可以进行基于等级的非参数检验（例如 Wilcoxon-Mann-Whitney）。如果您假设如果分布不同，那么它们仅在比例因子上有所不同（适用于包括指数在内的各种偏态分布），那么您甚至可以获得比例参数比率的置信区间。

[为此，我建议使用对数刻度（日志中的位置偏移是刻度偏移的对数）。它不会改变 p 值，但它可以让您对点估计和 CI 限制取幂，以获得比例偏移的间隔。]

如果您处于指数情况，这也应该具有相当好的功效，但可能不如使用 t 检验。

考虑了位置偏移替代方案的一组相当广泛的案例（例如，在零值下具有方差和偏度异质性）的参考是

Fagerland, MW 和 L. Sandvik (2009)，
“对方差不等的偏态分布进行五个两样本位置检验的性能”，当代
临床试验，30，490–496

它通常倾向于推荐 Welch U-test（Welch 考虑的几种测试中的一种，也是他们测试的唯一一种）。如果您没有使用完全相同的 Welch 统计数据，则建议可能会有所不同（尽管可能相差不大）。[请注意，如果您的分布是指数分布，那么您对比例替代方案感兴趣，除非您采用对数...在这种情况下，您不会有不等的方差。]

其它你可能感兴趣的问题

上一篇MCMC什么时候变得司空见惯了？下一篇时间序列中可逆过程的直觉是什么？