识别和删除异常值是否合适,因为它们会导致问题?

机器算法验证 异常值 箱形图 心理学
2022-03-13 21:47:46

这一切都与我的心理学荣誉论文有关。

我有两组(自闭症和控制),所有参与者都完成了四项任务。对我的研究非常重要的是,各组在每项任务的反应时间上没有差异。然而,他们确实如此。自闭症组的反应比对照组快。这混淆了我们实际想要研究的结构的结果。

我想我可以通过从研究中排除异常值来纠正差异。我试图在单变量(箱线图,SD = +/- 2.5,四个任务中的每一个)和多变量(Mahalanobis Dsq)水平上识别异常值。没有参与者作为异常值出现。然后我想我会排除平均反应时间低的参与者(“低”是一个任意值),但即便如此,两组之间的差异还是显着的。

  • 还有什么我可以做的吗?
  • 我将如何在我的论文中报告这样的过程?
3个回答

考虑主题类别在反应时间上存在真正差异的可能性非常重要。如果是这种情况,那么任何使差异消失的东西都会导致潜在的人为结果。不要认为不方便的影响是存在异常值的结果。

也许你可以寻找反应时间和另一个结果测量之间的关系。自闭症受试者和正常受试者之间的关系形式可能不同。

您不应该仅仅因为异常值会导致问题而排除它们,也不应该因为完整数据会导致问题而使用数据的子集。这些都没有解决你的情况下的“问题”,但即使他们解决了,那也是不对的。

您没有详细说明您正在尝试做什么或如何做,但是您可以将反应时间添加为协变量吗?

听起来您需要更多地探索您的数据。你为什么不尝试一些无监督的技术,比如聚类。异常值会出现在他们自己的组中。你会认为你的控件会有某种分组。

无论如何,你仍然可以有一个关于没有看到你期望看到的效果的论文。您必须解释您的数据/方法如何没有缺陷。并添加一个关于您可能添加哪些变量的部分,以解释为什么您的测试对象和控件组合在一起。这项工作仍然有助于未来的研究人员。