计算几种感染流行率的置信区间

机器算法验证 估计 置信区间 流行病学
2022-04-20 03:36:19

我有一个关于医院人群以及患者感染类型的数据集。

假设患者人数为100,其中10人患有肺炎(group A),其中20人患有尿路感染(group B)请记住,A组和B组可以重叠,即患有肺炎的患者也可能患有尿路感染。

我需要估计该人群中不同感染类型的患病率(即肺炎患病率、尿路感染患病率)。我不确定假设二项分布是否合适,如下面的这里

SE=p×(1p)n×1f

使用这个公式,我将计算多个“二项式”估计值(即,每种感染类型一个)。如果我只需要描述一种感染的流行率,我会觉得使用它很舒服,但在这种情况下,我需要描述来自同一人群的几种感染。我不确定在这种情况下使用该公式是否合适。这里有人可以启发我吗?谢谢!

2个回答

所以你有一个人口,每个人都可以有零个或多个条件。回答这个问题:有多少住院病人有A?在我看来,你能做的最好的事情就是选择你最喜欢的比例估计器,并提供你最喜欢的置信区间。有很多选择,对于非常高或非常低的比例会有所不同。如果你有这种情况,上面的估计器可能不是最优的。

如果您只对您所在医院的人口感兴趣,那么正如 SheldonCooper 指出的那样,您可以完全省去统计数据。但是,我怀疑您对住院患者更感兴趣,因此您的标准误差和间隔可能会相对于该人群进行解释。在您建议的估计器中,人口的身份将决定 1-F 是什么。当然,就您计算的情况而言,住院患者看起来不像非住院患者,但这无关紧要。

在 Sheldon 的第二次观察之后,这些条件很可能是相关的。但据我所知,如果您提出有条件的问题,例如 A 在 B 患者中的患病率,这只是有用的信息。在概率方面,您的问题是关于估计边际,而相关信息仅告诉您有关估计条件的信息。

如果您对这些类型的子感兴趣,您肯定希望对这些信息进行建模。如果存在差异测量误差或样本选择问题等,您也需要它。例如,如果您的诊断为 B,则仅对 A 进行测试……这也可能使某些样本边缘作为人口边缘的估计存在问题。谢天谢地,我对医院人口了解不多,但我敢打赌,这些问题中存在一些。

最后,关于报告:如果您实际上想要报告置信区域而不是条件间隔,那么相关结构再次很重要,事情变得相当棘手。我似乎记得 Agresti 有一篇关于多元二项式比例的同时置信区间的论文,这可能对这种方法有所帮助。

一些想法:

  1. 正如人们所提到的,如果您拥有整个医院人口的数据,并且您遇到的所有问题都仅限于该医院,那么您可以完全放弃置信区间。但是,假设情况并非如此,并且您要么有医院的子样本,要么想将医院作为普通人群的样本来谈论...

    • 您可能可以忽略感染之间的依赖关系。它们之间不太可能完全不相关,但是您越仔细研究感染与各种和其他各种违反独立事件的行为之间的相关性(基本上,您的风险与我的疾病状态无关),就越简单ID 中的统计数据开始分解。对于这样的事情,你可能没问题。

    • 我很确定您可以使用所述公式。您不会将结果汇总在一起,而且正如您所说,您不会在组之间进行任何类型的比较。如果我们假设它们是独立的,那么这与独立估计同一人群中任何其他两种不相关事物的流行率一样有效。如果您想开始谈论联合患病率等,这不是真的,但您似乎只想要一个 Condition Prev (95% CI) 表。