分析具有多个治疗组和多个测量的重复测量实验

机器算法验证 假设检验 方差分析 重复测量 事后 克鲁斯卡尔-沃利斯测试
2022-04-05 10:48:06

我正在进行一项研究,以评估两种膳食补充剂对身体成分的影响。

文献表明,治疗 1(膳食补充剂 1)会影响身体成分,并对一些血液特征产生一些副作用。我们想知道治疗 2(膳食补充剂 2)对身体成分的影响是否与治疗 1 相同(甚至更好),而对血液特征没有这些不利影响

以下是数据集摘要:

  • 科目总数:171

  • 总组数:3

    • 控制,56 科目

    • 治疗 1, 58 名受试者

    • 治疗 2, 57 名受试者

  • 有 12 次重复测量(每个测量 3 次),总共 36 列。这些措施包括体重、体重指数、体脂肪量和一堆血液特征,如 HDL、LDL 等。因此,一些措施是相关的(体重和 BMI),而另一些则不相关。似乎(见下文)有些度量遵循高斯分布,有些则不遵循。

  • 所有这些测量在研究期间进行了 3 次。

假设A是体重。在研究期间的三个时间点测量体重。因此,我为所有组(对照组、治疗 1、治疗 2)设置了三个体重测量值 A1、A2 和 A3。因此,样本数据集看起来像(每行代表一个主题):

因此,样本数据集看起来像

以下是问题:

  1. 对于组内测试,我发现我应该使用带有 Bonferroni 校正的重复测量方差分析作为高斯测量的事后检验,以及使用 Wilcoxon 符号秩(每对)的弗里德曼检验作为非高斯的事后检验措施。这些是正确的选择(尤其是事后的选择)吗?

  2. 对于组间检验,我是否应该使用带有 Bonferroni 校正的单向 ANOVA 作为高斯的事后检验,而使用带有 Dunn 检验的 Kruskal-Wallis 作为非高斯测量的事后检验?

  3. 对于这个数据集,组间效应的事后分析的输出究竟意味着什么?例如,如果组之间的 B3 显着不同,事后是否显示哪个组的 B3 与其他组显着不同?

  4. 如果我想报告每次测量的所有组内和组间效应以及事后结果,那就太多了!对此类数据集的报告分析有何建议?

正态性检验

我在 R 中使用 Shapiro-Wilk 测试来测试每组的每个度量的正态性。以下是两组 B1 的直方图(作为非正态数据的示例):

在此处输入图像描述

在此处输入图像描述

更新:

  • 我们不能 100% 确定治疗 1 是否有效(文献中关于它的有效性存在一些争议),因此我们将对照组包括在内,看看治疗 1 是否有效,然后将其与治疗 2 进行比较。

  • 关于时间点,有3个(开始时、6周后、12周后)。这是为了查看两种治疗方法的效果有多快或多慢,与彼此相比以及与安慰剂相比。

  • 虽然身体成分测量听起来取决于,但并非总是如此。一个人可以在她的 BFM 完全没有变化的情况下减轻体重,或者可能仅仅是因为 BFM 的变化。

2个回答

我认为一个人可以写一整本书专门处理你的问题(我绝对没有资格写它)。因此,在没有任何尝试提供全面答案的情况下,这里有一些可能会有所帮助的观点。

确认性与探索性分析方法

正如您自己所注意到的,您拥有非常丰富的数据集,并且可以测试很多东西我们可以快速计算出有意义的测试数量:你有12措施;每个都被测量3次在3团体。因此,如果我们计算所有成对测试,它将是3每组测试和3每个测量时间的测试,即18每个测量的测试,即216测试。您显然知道潜伏的多重比较问题(还记得绿豆漫画吗?),但如果您通常乐于使用α=0.05并且要使用例如 Bonferroni 调整,那么您将不得不使用α=0.05/2160.002并且冒着没有发现任何显着影响的风险,因为你没有足够的力量。

这当然不是一个独特的情况,但实际上是一种非常普遍的情况。

从广义上讲,您可以采用两种方法之一。

确认性方法坚持严格遵守显着性检验规则。您应该提前制定您的一个或多个(但尽可能少)研究假设,并仔细计划您将执行哪些统计测试。为了缓解多重比较/低功率问题,您应该尝试设计您的测试,以便您使用尽可能少的测试,同时拥有最大的功率来检测您真正想要检测的内容。例如,您可能希望将您的度量组合成一些可能受处理 1 或 2 影响最大的复合或合并度量。或者您可以合并多个度量时间。等等。无论如何,您尝试将所有数据归结为几个关键的比较,然后你只做那些,应用 Bonferroni(或类似的)调整。重要的是,在您查看数据之前计划好所有这些(因为在查看数据之后,您会很想更改测试)。

唉,在实践中,这通常是不可能的。

相比之下,探索性方法就像咬紧牙关:您拥有大量丰富的数据,那么为什么不探索其中存在的各种关系。您将进行大量比较和大量测试,您将根据您在数据中看到的内容调整您的分析策略,但无论如何——这都是探索性的。如果您正在进行临床试验,则不能这样做,但在更基础的研究中,这通常是唯一的方法。全部p但是,您从这种方法中获得的值应该与(大)一粒盐一起使用。事实上,有些人会说您根本不应该运行或报告任何显着性测试,但通常测试仍然会完成。有一个很好的论点是根本不使用多重比较调整(例如 Bonferroni),而是将所有p-值表示费舍尔语中的证据强度(而不是导致内曼-皮尔森语中的是/否决定)。

如果您愿意假设正态性,则进行统计测试

让我们暂时忽略正常的问题(见下文)并假设一切正常。您有以下一系列测试:

  1. 对于每个测量,两个测量时间之间的组内成对比较是配对 t 检验它将测试这两次之间的测量值是否不同。
  2. 对于每个测量,一个测量时间的组间成对比较是非配对 t 检验它将测试这两组是否在此特定测量上有所不同。
  3. 对于每个测量,所有三个不同测量时间之间的组内比较是重复测量方差分析它将测试测量时间是否有任何影响。
  4. 对于每个测量,一个固定测量时间的组间比较是单向方差分析它将测试组之间是否存在任何差异。
  5. 对于每个测量,所有组和所有时间之间的比较是双向重复测量方差分析它将检验是否存在群体效应显着、时间效应显着以及它们之间是否存在显着交互作用。
  6. 对于所有测量,所有组和所有时间之间的比较是双向重复测量 MANOVA它将测试是否存在组的显着影响、时间的显着影响或它们之间对一起采取的所有措施是否存在显着的交互作用。

请注意,#1 和#2 可以分别看作是#3 和#4 的事后,#3 和#4 可以看作是#5 的事后,而#5 可以看作是事后的#6。

[还有一个额外的复杂情况,当这些测试作为事后完成时,他们使用“父”测试的一些汇总估计,以便与它更加一致;我不确定这些程序是否存在于更高层次的层次结构中。]

所以你有一个分层的结构,你可以以自上而下的方式从最一般的(#6)级别到最具体的(#1 和#2)测试,并且只有在对更高级别(为潜在的混乱道歉;“更高”级别在我的列表中具有更高的数字,因此位于其底部......“自上而下”意味着从#6 中的 MANOVA 开始,直到 t 检验在 #1 和 #2 中)。这应该可以保护您免受较低级别的误报,因此您可以说(!)不需要在较低级别进行多重比较调整(但据我了解,对此的看法不同)。

您也可以直接从某个中间层开始,例如运行 12 次 #5 而不执行 #6,或者运行 36 次 #3 和 36 次 #4 而不执行 #5。在确认框架中,您必须应用一些多重比较校正(例如 Bonferroni 或更确切地说是 Holm-Bonferroni)。在探索性框架中,这不是必需的,请参见上文(示例:可能无需调整即可p=0.01在许多不同的措施中的效果,它是非常一致的;那时您可能正在查看实际效果,但是如果您进行 Bonferroni 调整,那么一切都将不再重要——太糟糕了。相反,在探索性框架中,您应该保留p=0.01原样并使用您自己的专家判断,但当然风险自负)。

顺便说一句,如果您的治疗完全有效,您应该期望在 #6 和 #5 中产生显着的交互效果,所以这些(希望!)几乎可以保证,有趣的东西从第 3 层和第 4 层开始。如果存在两种治疗方法与安慰剂一样糟糕的真正危险,那么也许你真的应该从#6 开始。

另一句话:更“现代”的方法是使用线性混合模型(受试者是随机效应)而不是重复测量方差分析,但这是我不太熟悉的另一个话题。如果有人从混合模型的角度在这里发布了一个答案,那就太好了。

如果您不愿意假设正态性,则进行统计测试

大多数这些测试都有排名类似物,但不是全部。类似物如下:

  1. 威尔科克森试验
  2. Mann-Whitney-Wilcoxon 检验
  3. 弗里德曼检验
  4. Kruskal-Wallis 检验
  5. ?? (可能不存在)
  6. ???(很可能不存在,但请参见此处

额外的复杂情况是事后处理变得棘手。Kruskal-Wallis 的适当事后不是 Mann-Whitney-Wilcoxon 而是 Dunn 检验 [它考虑了我在上面方括号中提到的问题]。同样,弗里德曼的适当事后不是威尔科克森;不确定它是否存在,但如果存在,它甚至比邓恩的更晦涩难懂。

正态性检验

通常,测试正态性以确定您应该使用参数测试还是非参数测试是一个非常糟糕的主意。它会影响你的p- 以不可预知的方式取值。至少在确认范式中,您应该在查看数据之前决定测试;如果您对正态近似有疑问,请不要使用它。有关更多讨论,请参见此处:根据另一个结果(例如正态性)选择统计检验

在您的情况下,这意味着您应该对所有测量仅使用参数测试或仅使用非参数测试(除非您有先验理由怀疑仅在特定的测量子集中与正态性存在重大偏差;情况似乎并非如此) .

在简单的情况下,人们通常建议使用排名测试,因为它们功能强大、简单,而且您无需担心假设。但是在您的情况下,非参数测试将是一团糟,因此您有充分的理由支持经典的方差分析。顺便说一句,您发布的直方图对我来说看起来“足够正常”,以您的样本量,您不必太担心它们不正常。

数据展示

我强烈建议依靠可视化,而不是只列出数百个p- 文本或表格中的值。有了这样的数据,我要做的第一件事(注意:这是非常具有探索性的!),将制作一个包含 12 个子图的巨型图形,其中每个子图对应一个度量并在 x 轴上显示时间(三个度量) 和分组为不同颜色的线条(带有误差线)。

然后盯着这个数字看很长时间,看看它是否有意义。希望效果在测量、时间点等方面是一致的。我会把这个数字作为论文的主要数字。

如果你愿意,你可以在这个数字上加上你的统计测试结果(用星号标记显着差异)。


简要回答您的具体问题

  1. 是的(几乎——看到关于 Wilcoxon 的警告是事后的)
  2. 是的
  3. 是的
  4. 尽可能多地使用数字。

警告

我们想知道治疗 2(膳食补充剂 2)对身体成分的影响是否与治疗 1 相同(甚至更好),而对血液特征没有这些不利影响。

为了证明治疗 2 没有治疗 1 那样多的副作用,仅仅证明 T1 和对照之间存在显着差异但 T2 和对照之间没有显着差异是不够的。这是一个常见的错误。您实际上需要显示 T2 和 T1 之间的显着差异。


进一步阅读:

它是一种多层方法论的洋葱去皮。由于时间和知识的缺乏,我只能处理顶层。我将在分析目标的非常明确的陈述中建立这个答案:在 OP 中以粗体表示:

我们想知道治疗 2(膳食补充剂 2)对身体成分的影响是否与治疗 1 相同(甚至更好),而对血液特征没有这些不利影响。

1)不需要对照组-您想比较两组Treatment1和Treatment2-这很好,因为您可以在没有多重比较的情况下进行2组测试-(至少在原则上)而不是多组测试_事后测试

2)让我们假设你有一个身体成分的测量值,比如 B。你想证明 T2(治疗 2)在 B 测量值上至少与 T1 一样好。

这里有个大问题。您提到的所有测试都是显示一组度量与另一组不同的测试,而不是表明它至少一样好是的,您可以使用标准的 2 组测试(例如 t 测试 - 暂时忘记高斯和非高斯数据)并显示 T2 的 B 测量值与 T1 的测量值显着不同(并且更好)。如果你很幸运,并且你得到了显着的差异,那么你可以证明 T2 比 T1 好,因此至少和 T1 一样好。但如果你不走运,那么你得到了什么——p 值高的事实并不能告诉你两组测量值是相同的(因此 T2 至少与 T1 一样好),它告诉您没有足够的数据来表明存在差异!

因此,B 测量需要的是非劣效性检验(或等效性检验)。我不会涉及它 - CV 中有很多关于等效测试的答案。但是我上面的第 1 点很重要,因为我知道的非劣效性测试(例如 TOST)仅适用于两组!

3) 让我们假设您只有一种血液测量值 (C)。您想证明 T2 在 C 测量上优于 T1,而此处的标准测试(显示差异的测试)是合适的工具。您表明 T1 和 T2 的测量 C 的差异显着不同(并且 T2 更好),因此 T2 在血液特征上显着更好。

4) 另一个问题是您没有为每个主题单独测量 B(和 C)。您在 3 个不同的时间进行了 3 次测量

我真的不知道如何处理每个主题的 3 次测量。请注意,这与研究问题无关 - 3 次测量是针对同一主题的,但我们正在比较 T1 和 T2 中的主题集,并且 T1 和 T2 中的主题不是配对或相同的.

我会将 3 次定时测量视为 3 次独立测量,以便更好地估计每个受试者的 B(和 C)的真实值。因此,我只需将三个定时测量平均为一个。(我知道通过平均数据会丢失有关可变性的信息,但我不清楚 B 测量的可变性信息在哪里对研究问题有用)。

4) 下一个问题是,在没有单一的 B 测量身体成分时,有许多不同的测量方法,例如体重、体重指数、体脂肪量,它们可能是相关的)。让我们称它们为 Ba、Bb、Bc 等。(请注意,这不是上述每个主题的 3 次测量,它们是不同的测量 - 我在上面的项目中使用了测量,并在此处测量

您可以对每个 Ba Bb Bc 测量的每个身体测量(平均每个受试者的 3 次测量,对两组数据执行非自卑性测试)运行到目前为止描述的程序(最多至第 3 项),并报告结果。所有血液中的 Ca 和 Cb 测量值都相同,依此类推。但是随后您进行了很多比较和测试。在此示例中,将有 5 个测试结果(Ba Bb Bc Ca 和 Cb)。因此,您还应该有一个多重比较程序来调整 p 值!(这非常罕见——人们通常不会针对不同的测试进行 p 值调整——仅针对单个、多组测试——但他们应该这样做)。

另一方面,测量 Ba Bb 和 Bc 非常相关,因此测试的结果不是独立的 - 我不知道如何进行 p 值调整(注意 Bonferroni 校正假设每个测试是独立的——与这里的情况完全相反)。


我会在这个时候停止回答。希望更多知识渊博的简历投稿人能够提供更好的答案,特别是以上第 3 点和第 4 点,这在我的知识范围内。