如何比较医学诊断技术的有效性?

机器算法验证 假设检验 统计学意义
2022-03-26 23:53:48

一位病理学家朋友来找我寻求以下研究项目问题的帮助。目的是比较三种不同诊断技术的有效性。数据集如下:有 50 个不同的标本,每个标本由 4 名病理学家和 3 种不同的仪器进行评估(即总共 600 次诊断)。每个病例都有可能的阳性或阴性诊断,并且真实结果是已知的,因为它们是独立确定的。成功率取决于仪器的质量和病理学家的技能,我们不能假设四位病理学家的熟练程度相同。最后,即使每个人测量同一个样本 3 次,它们也可以被视为独立测量。

什么是比较仪器之间有效性的适当测试?

谢谢。

补充:答案中有很多很好的信息,感谢两者。关于 ROC 和随机块如何比较/对比的任何想法?

我不确定我是否已经充分消化它以知道哪种方法“更好”。由于结果需要传达给特定的受众,这可能取决于在该受众中更广泛地使用哪个。

2个回答

正如原始帖子中所述,该实验是一个随机块。

  • 病理学家(4级)是一个阻碍因素;该实验在每位病理学家中重复进行。
  • 仪器(3 个级别)和测试的真实结果(2 个级别)是两种处理方法,我假设它们是随机分配的。
  • 将不同的标本视为每种治疗组合的复制品。
  • 一个响应变量是病理学家的诊断是否正确(2 个水平)。

因为结果是分类的,所以链接函数需要类似于 logit 或 probit。这是一些执行此操作的 R 代码。根据您朋友的假设,它可能需要扩展。

library(lme4)
glmer(correctness ~ instrument*trueresult + (1|pathologist),
  family = binomial)

来自 logit 模型的系数可以根据优势比进行解释。对于预测变量的特定组合,模型会估计优势比。各个系数表示优势比如何根据预测变量而变化。

如果您的朋友不关心区分 I 型和 II 型错误,他或她可以从模型中删除真实结果预测器。

library(lme4)
glmer(correctness ~ instrument+trueresult + (1|pathologist),
  family = binomial)

多个会话中的测量可能是不完整的块设计,因此如果您的朋友担心测量之间的独立性假设,则应该查看这些设计。

ROC 曲线(接收器操作特征)是可用的技术之一。您可以在此站点上查看带有标签 roc 的问题以获取更多详细信息。维基百科文章 http://en.wikipedia.org/wiki/Receiver_operating_characteristic及其外部链接也可能有用。其他一些方法可以在这里找到 http://onbiostatistics.blogspot.com/2011/01/agreement-statistics-and-kappa.html