所以你有一个人口,每个人都可以有零个或多个条件。回答这个问题:有多少住院病人有A?在我看来,你能做的最好的事情就是选择你最喜欢的比例估计器,并提供你最喜欢的置信区间。有很多选择,对于非常高或非常低的比例会有所不同。如果你有这种情况,上面的估计器可能不是最优的。
如果您只对您所在医院的人口感兴趣,那么正如 SheldonCooper 指出的那样,您可以完全省去统计数据。但是,我怀疑您对住院患者更感兴趣,因此您的标准误差和间隔可能会相对于该人群进行解释。在您建议的估计器中,人口的身份将决定 1-F 是什么。当然,就您计算的情况而言,住院患者看起来不像非住院患者,但这无关紧要。
在 Sheldon 的第二次观察之后,这些条件很可能是相关的。但据我所知,如果您提出有条件的问题,例如 A 在 B 患者中的患病率,这只是有用的信息。在概率方面,您的问题是关于估计边际,而相关信息仅告诉您有关估计条件的信息。
如果您对这些类型的子组感兴趣,您肯定希望对这些信息进行建模。如果存在差异测量误差或样本选择问题等,您也需要它。例如,如果您的诊断为 B,则仅对 A 进行测试……这也可能使某些样本边缘作为人口边缘的估计存在问题。谢天谢地,我对医院人口了解不多,但我敢打赌,这些问题中存在一些。
最后,关于报告:如果您实际上想要报告置信区域而不是条件间隔,那么相关结构再次很重要,事情变得相当棘手。我似乎记得 Agresti 有一篇关于多元二项式比例的同时置信区间的论文,这可能对这种方法有所帮助。