使用医生的数据来识别住院情况

机器算法验证 贝叶斯 数据挖掘 生物统计学 大数据
2022-03-25 14:01:27

我可以访问英国的两个大型医学观察记录数据集。第一个 - 临床实践研究数据链 (CPRD) - 拥有 100,000 名患者的数据 - 主要是医生就诊、诊断和处方的日期。至关重要的是,它几乎没有关于住院的信息。

第二个数据集是住院数据——医院发作统计(HES)——重要的是,我可以识别 CPRD 中的 HES 患者。HES 数据要小得多——可能是 5% 的 CPRD 患者(我手头没有数据)?- 但它仍然是数以万计的患者。

简介是在 CPRD 数据中寻找可能表明住院的信号 - 使用 HES 数据来验证这一点。我可能会在一组患有特定疾病(例如呼吸系统疾病)的患者中这样做,这应该使他们的医疗模式比一般人群更加同质。

这项研究的原因是 CPRD 的病史更丰富,使其最有用 - 但缺乏住院治疗的关键要素。尽管如此,它确实有一些——例如,患者可能会去看医生并被告知去急诊室——这将记录在 CPRD 中。

最终,我并不乐观,我会发现很多,但我需要好好尝试一下。我的背景是传统的常客统计,其中协议测量等工具似乎完全不够用。我对一些贝叶斯和机器学习技术有一定的了解——教科书而不是实用技术——在这种情况下,后者似乎很合适。

我真的在寻找要研究的关键词和想法(不一定是完整的答案),因为这将有很大帮助。

此外,我可能会在 SAS 9.1.3(或最终的 9.3)中对此进行编程——如果这有什么不同的话——尽管我可能能够使用 R(尽管数据集大小肯定是一个问题)。

我很感激任何帮助。

编辑:

Resp Arthur Small:是的,我想您可以以这种方式使用 CPRD 记录,使用 HES 记录来“确认”医院。不过我想知道 - 鉴于 CPRD 是纵向数据 - 在 CPRD 中的哪个点您确定这些概率(无需先查看 HES 以获取日期)。尽管如此,它确实给了我一些进一步调查的东西——并且在我的推理统计世界中!

编辑:

Resp Peter Ellis:可以使用具有 HES(和重叠期)的 CPRD 患者,所以是的,我们可以确定所有 hoss 都记录在 HES 中,用于该 CPRD 患者子集。

但是,我看不到逻辑回归如何工作。如果患者在特定年份的 6 月和 11 月有 HES hosp,我不确定 CPRD 事件的回归将如何指向 1 个 hosp 而不是另一个。我认为这是让我感到困惑的时间因素。我“预期”了围绕 HES 医院的一组 CPRD 事件(和事件类型)——我认为我需要这种分析。谢谢。

1个回答

机器学习理念:您可以训练您选择的二元或一类分类器,以识别 CPRD 数据中的哪些模式表明住院。您可以使用 HES 数据标记 CPRD 数据中的阳性模式(例如,那些表示住院的模式)。我假设您也可以使用 HES 数据来标记负数,如果没有,您将需要一类技术。