我看到的回顾性数据收集研究设计反复出现的问题

机器算法验证 回归 预测模型 造型 模型选择 观察研究
2022-04-05 15:33:57

我注意到我参与的很多医学研究如下:

收集 300-1000 名患者的数据,包括各种基线特征,例如 BMI、年龄、性别以及结果相关的统计数据,所以说我们的结果是“术后骨折”,我们可以有骨折角度、骨折密度、疼痛评分,活动度评分,生活质量评分等等等,最后是我们的结果,患者是否在手术后发生骨折。通常这些结果是二元的,目标是查看是否有任何自变量与骨折有关。

  • 现在的问题是我们有一个二元结果变量,我们通常会在 1000 名患者中得到大约 30-50 名患者实际上发生了骨折,因此统计数据非常有偏差,并且比 500 名患者有骨折的情况要少得多骨折。

  • 第二个问题是我们可能有 50 个不同类型、因素、连续、二元的自变量(我是否正确假设在这些情况下 p>N,因为结果变量仅包含 30 名患者,即使研究规模为 N是1000?)

  • 第三个问题是这些研究通常是在对该主题知之甚少的情况下进行的,因此通常很难根据专家意见手动选择混杂因素。

显然,由于模型过拟合,我们无法对所有变量进行大型多元回归。我们不能运行 50 个(自变量)多元回归分析来控制年龄和性别,因为我们很快就会遇到一个非常严峻的多重比较问题。

我们不能使用正则化模型,因为我们对所有 50 个变量以及它们是否与我们的结果相关联感兴趣(没有一个被认为是简单的控制,从哪些正则化模型中选择但不一定添加到模型中)。

从统计学的角度来看,你会如何处理这样的研究设计?目前,我只是运行控制患者特征的逻辑回归模型,并且对 p 值未经调整的事实是透明的。

我应该指出,这些研究并不是要发明一种新的治疗方法或改变方案,它们是用来查看哪些变量对未来的研究感兴趣。

1个回答

你说得对,这是医学研究中非常常见的情况。

“我应该指出,这些研究并不是要发明一种新的治疗方法或改变方案,它们是用来查看哪些变量对未来的研究感兴趣。”

好的,我认为这意味着您对因果推理感兴趣,而不是预测。

从评论中:

“我们有统计学家可供我们使用。他们建议将所有变量的单变量回归中 P<0.2 的变量合并到一个新的多元回归中,并在第二个回归模型中报告 alpha 下的变量。”

这是不可取的。一方面,调解员将与结果相关联,您不应该对此进行调整。你也可能最终调整对撞机并实际调用其他不存在的混淆。当包含在回归模型中没有业务的变量时,请参阅此处了解可能出错的事情。

我很遗憾地说,在因果推理方面,没有什么可以替代有关该主题的专业知识。真的就这么简单。“专家”是相对术语。您不必拥有该领域的博士学位。我想我在另一篇文章中读到你是一名即将结束培训的医生。我原以为你可以为许多场景提出一个合理的 DAG。多年来,我一直在向本科医生教授这些东西,我通常发现他们能够很好地构建合理的 DAG。不同的人提出不同的 DAG 是正常的,因为他们对数据做出不同的抽象和假设。还,