构建广泛的病史+人口统计信息以预测未来的医疗结果

数据挖掘 数据 特征
2022-03-14 03:29:51

我正在寻找构建广泛病史的建议,以预测未来的结果,特别是住院人数。

假设我想预测从今天起的未来 60 天内是否有人会入院,对于每个人,我都有大量的病史,如血压读数、体重、入院情况、疾病等。回溯 5 年。当然,血压读数、体重和其他统计数据并非都是在同一天发生的,这就是我认为我被绊倒的地方。

我正在考虑以下情况——假设血压是未来住院的一个很好的预测指标。

  • 患者 1 的血压读数在 5 年前上升,然后在 14 天后住院。
  • 患者 2 的血压读数在 3 年前上升,然后在 11 天后住院。
  • 患者 4 的血压读数在 2.5 年前一直在上升,然后在 17 天后住院,但在去年有许多血压升高并没有导致住院的实例。
  • 患者四过去的血压测量值一直在上升,但从未入院。

我如何构建这些数据,以便如果所有患者现在的血压读数都在上升,它可能会导致预测

  • 患者一和二可能在未来 60 天内住院
  • 预计患者 3 和 4 可能不会在接下来的 60 天内住院。

我想我很难围绕如何使用与任何给定患者不相符的广泛过去历史,在时间和数据可用性方面(例如,我可能永远没有给定患者的血压读数) ,但是因为他们不知道如何在医疗系统中导航,所以他们每个月都会乘坐救护车去急诊室,因此,预计他们很可能会在接下来的 90 天内在任何一天住院),同时也考虑到新近度。

我最初想为每位患者每天排一排,但这并不能让我充分利用患者的整个病史,我认为这将非常重要。这是我一直在问自己的另一个问题......假设每一行都是一个病人,我有一个名为blood_pressure_reading. 有没有办法在一个细胞内代表过去 5 年中所有患者的血压读数?我可以在这里放一组 NULL 和过去 5 年的实际读数吗?

1个回答

这里有很多选择和很多不同的问题,我认为你应该从简单开始,然后尝试改进它。

恕我直言,最基本的选择是重组数据集,以便在任何给定时间为每位患者提供一个实例t,例如每个月。二进制标签表示该期间患者是否入院tt+60 天。这些特征应该代表任何相关指标可以帮助基于过去数据的模型(之前t),例如过去 N 个月的血压平均值/标准差,可能有不同的值N和/或滑动窗口。通过这种方式,可以整合短期和长期信息。有时您可能会缺少值,重要的是要考虑到这一点。

在这种设计中,每个患者都会有几个实例,这可能会导致评估出现偏差。有两种选择:或者为每个患者提供一个独立的模型,但这可能太复杂了。或者数据集由所有患者组成,在这种情况下,重要的是要避免在训练集和测试集中有相同的患者。

患者定期乘坐救护车到急诊室的问题是一个预处理问题:例如,如果可能,这些病例应该被丢弃或重新贴上标签,就像是定期会诊一样。