我认为一个人可以写一整本书专门处理你的问题(我绝对没有资格写它)。因此,在没有任何尝试提供全面答案的情况下,这里有一些可能会有所帮助的观点。
确认性与探索性分析方法
正如您自己所注意到的,您拥有非常丰富的数据集,并且可以测试很多东西。我们可以快速计算出有意义的测试数量:你有12措施;每个都被测量3次在3团体。因此,如果我们计算所有成对测试,它将是3每组测试和3每个测量时间的测试,即18每个测量的测试,即216测试。您显然知道潜伏的多重比较问题(还记得绿豆漫画吗?),但如果您通常乐于使用α = 0.05并且要使用例如 Bonferroni 调整,那么您将不得不使用α = 0.05 / 216 ≈ 0.002并且冒着没有发现任何显着影响的风险,因为你没有足够的力量。
这当然不是一个独特的情况,但实际上是一种非常普遍的情况。
从广义上讲,您可以采用两种方法之一。
确认性方法坚持严格遵守显着性检验规则。您应该提前制定您的一个或多个(但尽可能少)研究假设,并仔细计划您将执行哪些统计测试。为了缓解多重比较/低功率问题,您应该尝试设计您的测试,以便您使用尽可能少的测试,同时拥有最大的功率来检测您真正想要检测的内容。例如,您可能希望将您的度量组合成一些可能受处理 1 或 2 影响最大的复合或合并度量。或者您可以合并多个度量时间。等等。无论如何,您尝试将所有数据归结为几个关键的比较,然后你只做那些,应用 Bonferroni(或类似的)调整。重要的是,在您查看数据之前计划好所有这些(因为在查看数据之后,您会很想更改测试)。
唉,在实践中,这通常是不可能的。
相比之下,探索性方法就像咬紧牙关:您拥有大量丰富的数据,那么为什么不探索其中存在的各种关系。您将进行大量比较和大量测试,您将根据您在数据中看到的内容调整您的分析策略,但无论如何——这都是探索性的。如果您正在进行临床试验,则不能这样做,但在更基础的研究中,这通常是唯一的方法。全部p但是,您从这种方法中获得的值应该与(大)一粒盐一起使用。事实上,有些人会说您根本不应该运行或报告任何显着性测试,但通常测试仍然会完成。有一个很好的论点是根本不使用多重比较调整(例如 Bonferroni),而是将所有p-值表示费舍尔语中的证据强度(而不是导致内曼-皮尔森语中的是/否决定)。
如果您愿意假设正态性,则进行统计测试
让我们暂时忽略正常的问题(见下文)并假设一切正常。您有以下一系列测试:
- 对于每个测量,两个测量时间之间的组内成对比较是配对 t 检验。它将测试这两次之间的测量值是否不同。
- 对于每个测量,一个测量时间的组间成对比较是非配对 t 检验。它将测试这两组是否在此特定测量上有所不同。
- 对于每个测量,所有三个不同测量时间之间的组内比较是重复测量方差分析。它将测试测量时间是否有任何影响。
- 对于每个测量,一个固定测量时间的组间比较是单向方差分析。它将测试组之间是否存在任何差异。
- 对于每个测量,所有组和所有时间之间的比较是双向重复测量方差分析。它将检验是否存在群体效应显着、时间效应显着以及它们之间是否存在显着交互作用。
- 对于所有测量,所有组和所有时间之间的比较是双向重复测量 MANOVA。它将测试是否存在组的显着影响、时间的显着影响或它们之间对一起采取的所有措施是否存在显着的交互作用。
请注意,#1 和#2 可以分别看作是#3 和#4 的事后,#3 和#4 可以看作是#5 的事后,而#5 可以看作是事后的#6。
[还有一个额外的复杂情况,当这些测试作为事后完成时,他们使用“父”测试的一些汇总估计,以便与它更加一致;我不确定这些程序是否存在于更高层次的层次结构中。]
所以你有一个分层的结构,你可以以自上而下的方式从最一般的(#6)级别到最具体的(#1 和#2)测试,并且只有在你对更高级别(为潜在的混乱道歉;“更高”级别在我的列表中具有更高的数字,因此位于其底部......“自上而下”意味着从#6 中的 MANOVA 开始,直到 t 检验在 #1 和 #2 中)。这应该可以保护您免受较低级别的误报,因此您可以说(!)不需要在较低级别进行多重比较调整(但据我了解,对此的看法不同)。
您也可以直接从某个中间层开始,例如运行 12 次 #5 而不执行 #6,或者运行 36 次 #3 和 36 次 #4 而不执行 #5。在确认框架中,您必须应用一些多重比较校正(例如 Bonferroni 或更确切地说是 Holm-Bonferroni)。在探索性框架中,这不是必需的,请参见上文(示例:可能无需调整即可p=0.01在许多不同的措施中的效果,它是非常一致的;那时您可能正在查看实际效果,但是如果您进行 Bonferroni 调整,那么一切都将不再重要——太糟糕了。相反,在探索性框架中,您应该保留p=0.01原样并使用您自己的专家判断,但当然风险自负)。
顺便说一句,如果您的治疗完全有效,您应该期望在 #6 和 #5 中产生显着的交互效果,所以这些(希望!)几乎可以保证,有趣的东西从第 3 层和第 4 层开始。如果存在两种治疗方法与安慰剂一样糟糕的真正危险,那么也许你真的应该从#6 开始。
另一句话:更“现代”的方法是使用线性混合模型(受试者是随机效应)而不是重复测量方差分析,但这是我不太熟悉的另一个话题。如果有人从混合模型的角度在这里发布了一个答案,那就太好了。
如果您不愿意假设正态性,则进行统计测试
大多数这些测试都有排名类似物,但不是全部。类似物如下:
- 威尔科克森试验
- Mann-Whitney-Wilcoxon 检验
- 弗里德曼检验
- Kruskal-Wallis 检验
- ?? (可能不存在)
- ???(很可能不存在,但请参见此处)
额外的复杂情况是事后处理变得棘手。Kruskal-Wallis 的适当事后不是 Mann-Whitney-Wilcoxon 而是 Dunn 检验 [它考虑了我在上面方括号中提到的问题]。同样,弗里德曼的适当事后不是威尔科克森;不确定它是否存在,但如果存在,它甚至比邓恩的更晦涩难懂。
正态性检验
通常,测试正态性以确定您应该使用参数测试还是非参数测试是一个非常糟糕的主意。它会影响你的p- 以不可预知的方式取值。至少在确认范式中,您应该在查看数据之前决定测试;如果您对正态近似有疑问,请不要使用它。有关更多讨论,请参见此处:根据另一个结果(例如正态性)选择统计检验。
在您的情况下,这意味着您应该对所有测量仅使用参数测试或仅使用非参数测试(除非您有先验理由怀疑仅在特定的测量子集中与正态性存在重大偏差;情况似乎并非如此) .
在简单的情况下,人们通常建议使用排名测试,因为它们功能强大、简单,而且您无需担心假设。但是在您的情况下,非参数测试将是一团糟,因此您有充分的理由支持经典的方差分析。顺便说一句,您发布的直方图对我来说看起来“足够正常”,以您的样本量,您不必太担心它们不正常。
数据展示
我强烈建议依靠可视化,而不是只列出数百个p- 文本或表格中的值。有了这样的数据,我要做的第一件事(注意:这是非常具有探索性的!),将制作一个包含 12 个子图的巨型图形,其中每个子图对应一个度量并在 x 轴上显示时间(三个度量) 和分组为不同颜色的线条(带有误差线)。
然后盯着这个数字看很长时间,看看它是否有意义。希望效果在测量、时间点等方面是一致的。我会把这个数字作为论文的主要数字。
如果你愿意,你可以在这个数字上加上你的统计测试结果(用星号标记显着差异)。
简要回答您的具体问题
- 是的(几乎——看到关于 Wilcoxon 的警告是事后的)
- 是的
- 是的
- 尽可能多地使用数字。
警告
我们想知道治疗 2(膳食补充剂 2)对身体成分的影响是否与治疗 1 相同(甚至更好),而对血液特征没有这些不利影响。
为了证明治疗 2 没有治疗 1 那样多的副作用,仅仅证明 T1 和对照之间存在显着差异但 T2 和对照之间没有显着差异是不够的。这是一个常见的错误。您实际上需要显示 T2 和 T1 之间的显着差异。
进一步阅读: