机器算法验证 - 当他们给你的结果相互矛盾时，如何检测哪个是更好的研究？ - 吾爱随笔录

当他们给你的结果相互矛盾时，如何检测哪个是更好的研究？

机器算法验证假设检验临床试验

2022-03-14 18:13:14

你经常在媒体上看到各种得出相反结果的研究。这些可能与新处方药的测试或特定营养素的优点或其他任何事情有关。

当两项这样的研究得出相互矛盾的结果时，您如何判断两者中哪一项最接近真相？

3个回答

元分析文献与您的问题相关。使用元分析技术，您可以生成跨研究汇总的兴趣效应的估计值。此类技术通常根据样本量对研究进行加权。

在元分析上下文中，研究人员讨论了固定效应和随机效应模型（参见Hunter 和 Schmidt，2002 年）。固定效应模型假设所有研究都在估计相同的总体效应。随机效应模型假设研究在估计的总体效应方面存在差异。随机效应模型通常更合适。

随着对特定关系的研究越来越多，更复杂的方法成为可能。例如，您可以根据各种属性（例如感知质量）对研究进行编码，然后凭经验检查效果大小是否随这些研究特征而变化。除了质量之外，研究之间可能存在一些理论上相关的差异，这些差异会缓和这种关系（例如，样本特征、剂量水平等）。

一般来说，我倾向于相信以下研究：

更大的样本量
更严格的方法论
确认性方向（例如，不是他们测试 100 种不同营养素和 50 种健康结果之间相关性的研究）
没有利益冲突（例如，不是由具有商业利益的公司展示关系；不是由有动机找到重要结果的研究人员）

但这就是说，您需要保持研究之间的随机抽样和理论上有意义的差异，作为对相互矛盾的研究结果的合理解释。

我会暂缓考虑荟萃分析，直到您仔细检查了目标人群中是否存在潜在偏见或变异的来源。如果这些是关于治疗效果的研究，治疗是随机分配的吗？是否与协议有偏差？是否有违规行为？是否缺少结果数据？样本是从同一帧中抽取的吗？有拒绝参加吗？执行错误？是否正确计算了标准误差，考虑了聚类并对各种参数假设具有鲁棒性？只有在你回答了这些问题之后，我才认为元分析问题开始出现。对于任何两项研究，荟萃分析都是合适的，除非你愿意做出大胆的假设，否则肯定很少见。

如果您正在检查两项实验研究或实际的荟萃分析，我认为杰罗米的回答就足够了。但我们经常面临检查两项非实验性研究的情况，并负责评估这两项不同发现的有效性。

正如赛勒斯的问题杂货清单所暗示的那样，这个话题本身并不适合简短的回应，整本书本质上都是为了解决这样一个问题。对于任何有兴趣对非实验数据进行研究的人，我强烈建议您阅读

William R. Shadish、Thomas D. Cook、Donald Thomas Campbell对广义因果推理的实验和准实验设计（我还听说本文的旧版本也一样好）。

杰罗米提到的几个项目（更大的样本量和更严格的方法论），赛勒斯提到的一切都将被视为坎贝尔和库克所说的“内部有效性”。这些包括研究设计的各个方面以及用于评估 X 和 Y 之间关系的统计方法。特别是作为批评者，我们担心任何一个方面都可能使结果产生偏差，并降低研究结果的可靠性。由于这是一个致力于统计分析的论坛，因此大部分答案都围绕统计方法进行，以确保对您正在评估的任何关系进行无偏估计。但它们是与统计分析无关的研究设计的其他方面，无论他们在统计分析中进行了多么严格的长度，都会降低研究结果的有效性（例如 Cyrus 提到的实验保真度的几个方面可以解决但不能解决统计方法，如果它们发生总是会降低研究结果的有效性）。在比较此处未提及的非实验研究的结果时，内部效度的许多其他方面对评估至关重要，研究设计的某些方面可以区分结果的可靠性。我觉得这里不宜过多详述，

坎贝尔和库克也提到了研究的“外部有效性”。研究设计的这一方面通常在范围上要小得多，并且不像内部效度那样值得关注。外部效度本质上涉及研究结果的普遍性，我想说，外行通常可以合理地评估外部效度，只要他们熟悉这个主题。长话短说，读了 Shadish、Cook 和 Campbell 的书。

其它你可能感兴趣的问题

上一篇多元高斯相加下一篇支持向量机是作为一种有效训练神经网络的方法而开发的吗？