在重复测量设计中比较两个均值时处理异常值

机器算法验证 重复测量 t检验 异常值
2022-04-20 07:23:22

我正在做一项简单的研究,涉及在时间点 1 和时间点 2(12 周后)进行测量。虽然样本是一个班级,但并非所有成员都在两个时间点都在场,所以我在时间 1 有 20 个日期点,在时间 2 有 21 个日期点。测量有一个分数,我正在采取手段并做一个简单的t 检验以确定干预是否导致时间点 2 的测量值增加。

问题:如果异常值比平均值高 2 个以上标准差,我是否需要剔除异常值?

当我进行 t 检验时,我需要查看单尾分布还是双尾分布?我的假设是干预会增加时间 2 的平均值,所以我认为我应该考虑单尾分布。

最后,我假设我必须进行配对 t 检验,因为它是重复测量设计。

1个回答

我会把这些弄乱的。如果可以在第一组测量值和第二组测量值之间建立对应关系(例如,Bob 在时间 1 的分数和 Bob 在时间 2 的分数对应,因为它们都来自 Bob),那么你应该这样做配对 t 检验。也就是说,你不应该每次都计算平均值,而是取差值,然后计算差值的平均值和标准差。差值的标准误差(即 t 统计量的分母)是标准差除以n. 如果有学生在其中一个场合没有参加,那么他们的分数应该被搁置。此外,您并不关心分数是否比平均值高 2 sd 以上,尽管您可能会关心您的差异之一是否比差异平均值高 2 sd 以上。

异常值的定义是来自与您要研究的人群不同的人群的数据点。定义不是远离其余数据的数据点。然而,我们几乎不知道一个数据点是否来自与我们其他数据不同的分布,除了它看起来真的不同。如果您应该花很多时间进行模拟,您会注意到每隔一段时间就会有一个您知道的数据点来自同一个发行版(因为您编写了模拟代码)看起来与其他发行版有很大不同。这是一个令人不安的事实,但它仍然是真实的。最终,您需要决定您是否相信数据点属于那里。有一些(可能)有用的指南:

  1. 对于大约 20 个数据点,绝对值大于 2 的 z 分数是不太可能的(尽管如果你有 100 个数据点就不会);
  2. 您可以查看数据图(例如,直方图)以查看较大的值是否与其余数据连续,或者它与其余数据之间是否存在较大的中断;
  3. 它可以帮助您在有潜在异常值和没有它的情况下运行您的分析(通常,两种方式都会得到相同的答案,这令人放心);
  4. 最后一种可能性是使用“修剪样本”,即排除顶部和底部 2 个数据点(假设您有 ~20 个,这将是 10% 修剪样本),请注意这会降低您的能力,但很多人认为它更公平。

恐怕到最后,你还是要做出决定。

最后,您应该知道,2 对 1 尾 t 检验的问题长期以来一直是一个有争议的话题。它可能不像人们所说的那么重要,但这就是这些事情的本质。就个人而言,我反对单尾测试,但我的意见真的不重要。你可以问自己的一个问题是:

如果我发现均值下降幅度很大怎么办?我会说“不,没有变化”,还是说有变化?

如果您有可能在数据支持的情况下相信负面变化,那么您确实应该使用 2 尾检验,但如果您永远不会相信平均值下降,那么您应该使用 1 尾检验测试可能很好,你只是让老脾气(像我一样)抱怨它。你不应该的是双向运行测试并选择一个给你你最喜欢的结果的测试(或运行一个 1 尾测试,注意平均值下降了很多,然后运行一个 2 尾测试和称之为“重要”)。