实验设计中的陷阱:避免死实验

机器算法验证 实验设计
2022-01-20 06:58:37

我多次看到这句话:

实验结束后咨询统计学家往往只是要求他进行尸检。他或许可以说出实验因何而死。——罗纳德·费舍尔(1938)

对我来说,这似乎有点自以为是。我发现的唯一描述没有良好设计的实验如何死亡的例子是缺乏控制或控制不佳。例如,控制施肥的实验,但未能控制施肥所需的环境。也许只有我一个人,但似乎快速阅读维基百科关于费舍尔设计原则的部分将涵盖大多数基础。

作为一名统计学家,您多久会看到设计与实验相关的数据问题?它们是否总是与费舍尔提到的那几个因素有关,或者还有其他我们未经统计培训的科学家应该注意的严重陷阱?

4个回答

我相信费舍尔在他的名言中的意思不仅仅是说“我们将为我们的研究进行全因子设计”或其他设计方法。在计划实验时咨询统计学家意味着以一种智能的方式思考问题的各个方面,包括研究目标、哪些变量是相关的、如何收集它们、数据管理、陷阱、对实验进展的中间评估等等更多的。通常,我发现亲眼目睹提议的实验的各个方面以真正了解困难所在是很重要的。

我的经验主要来自医疗应用。我遇到的一些问题可以通过事先咨询统计学家来避免:

  • 当然,样本量不足是该列表中的第一名。通常,以前研究的数据是可用的,并且很容易对所需的样本量进行合理估计。在这些情况下,唯一的办法通常是对数据进行纯粹的描述性分析,并承诺在论文中进行进一步的研究(在医生投入宝贵时间之后,通常不会选择不发表)。
  • 实验的执行留给方便和机会,而不是设计。我目前正在研究的一个示例是随时间收集的测量值。测量时间、测量频率和监测期结束在个体之间都有很大差异。增加每个人的测量次数并确定测量日期和监测期结束将是相当少的额外工作(在这种情况下),并且对研究非常有益。
  • 对本可以很容易控制的滋扰因素的控制不佳。例如,有时在样品收集当天进行测量,有时在之后进行,从而留下样品已降解的可能性。
  • 糟糕的数据管理,包括我个人最喜欢的“我在将数据放入计算机之前对其进行了四舍五入,因为机器的测量结果不准确”。通常,相关数据只是没有收集到,而且在事后也无法获得。

通常,研究中的问题可以追溯到更早的研究概念:

  • 有时收集数据时没有明确的目标,只是假设它会以某种方式有用。产生假设和“重要结果”留给统计学家。
  • 反之亦然:收集数据的目的是为了证明 PI 头脑中的某个特定点,而不考虑数据以及可以用它实际证明的内容。这一次,统计学家只是应该在预先写好的结论上打上他的重要印记,而不是在面对数据时对结论进行调整。

到目前为止,这听起来主要是当 PI 试图推出不受数据支持的结论时,统计学家会受到影响,并且科学完整性可能会受到影响(总是一个有趣的讨论)。但实验团队也受到影响,因为他们在实验阶段做了不必要的额外工作(虽然没有做必要的工作),而且事后需要花更多的时间与他们的统计学家讨论,因为他们之前没有得到他们的建议。当然,最终的论文会更糟,结论会更少(以及更多的“猜想”),并且很可能不会进入 PI 想要的高影响力期刊。

两个词:样本量...功率分析是必须的。通过从一开始就在您的团队中包括一位称职的统计学家,您在撰写手稿或报告的结果和讨论部分时可能会省去很多挫败感。

首席研究员在咨询统计学家之前从少于 30 名受试者的样本中收集数据并期望“预测模型”或“因果关系”是很常见的。如果 PI 在收集数据之前咨询了统计学家,那么统计学家将能够在进行适当分析后通知 PI,以收集更多数据/主题或重组其分析计划/项目的目标。

我想这取决于您对“设计”一词的解释有多严格。有时它被认为是指完全随机与随机块等。我认为我没有看到过因此而死亡的研究。另外,正如其他人所提到的,我怀疑“死”太强了,但这取决于你如何解释这个词。当然,我看到了一些“不重要”的研究(研究人员随后没有尝试发表结果);假设这些研究如果以不同的方式进行(根据我会给出的明显建议)并因此发表,可能会被视为“死亡”。鉴于这个概念,@RobHall 和@MattReichenbach 提出的电源问题非常简单,但是除了样本量之外,还有更多的力量,这些可能属于“设计”的更宽松的概念。这里有几个例子:

  • 不收集/记录/或丢弃信息
    我参与了一项研究,研究人员对某个特定特征是否与癌症相关感兴趣。他们从两个品系(即遗传品系,为某些特性培育小鼠)中获得小鼠,其中一个品系预计比另一个品系具有更多的性状。然而,有问题的特征实际上并没有被测量,即使它本来可以测量。这种情况类似于对连续变量进行二分法或分箱,这会降低功率。然而,即使结果是“显着的”,与我们知道每只老鼠的性状大小相比,它们的信息量也会更少。

    同一标题中的另一个案例是没有考虑和收集明显的协变量。

  • 糟糕的问卷设计
    我最近参与了一项研究,该研究在两种情况下进行了患者满意度调查。然而,没有一个项目是反向计分的。似乎大多数患者只是在列表中列出并标记了所有 5(非常同意),甚至可能没有阅读这些项目。还有一些其他问题,但这很明显。奇怪的是,负责进行这项研究的人告诉我,她的参加者明确鼓励她不要先与统计学家一起审查这项研究,尽管我们可以免费且方便地进行此类咨询。

我在类似调查和心理实验中看到过这种问题。

在一种情况下,整个实验必须归结为一次学习经历。多个层面的问题导致结果混乱,但结果似乎为该假设提供了一些支持。最后,我能够帮助计划一个更严格的实验,它基本上有足够的力量来拒绝这个假设。

在另一种情况下,我收到了一份已经设计和执行的调查,其中存在多个问题,导致几个感兴趣的领域受到影响。例如,在一个关键领域,他们询问有多少次客户在到达时因为活动已满而被拒之门外。问题是该问题没有时间范围,因此您无法区分尝试参加 4 次但被拒绝 4 次的人与尝试参加 40 次但仅被拒绝 4 次的人之间的区别.

我不是受过训练的大写统计学家,但如果他们事先来找我,我本可以帮助他们解决这些问题并获得更好的结果。在第一种情况下,它仍然会令人失望,“对不起,你的假设似乎极不可能”,但它可以为他们节省第二次实验。在第二种情况下,它会给他们一些重要问题的答案,并使结果更加清晰。(他们遇到的另一个问题是,随着时间的推移,他们调查了多个地点,因此至少有一些人被调查了多次,没有像“你在其他地方参加过这项调查吗?”这样的问题。)

也许不是统计问题本身,但在这两种情况下,聪明、受过良好教育的领域专家创造了有缺陷的仪器,结果是一个死实验和一个截肢实验。