我正在寻找构建广泛病史的建议,以预测未来的结果,特别是住院人数。
假设我想预测从今天起的未来 60 天内是否有人会入院,对于每个人,我都有大量的病史,如血压读数、体重、入院情况、疾病等。回溯 5 年。当然,血压读数、体重和其他统计数据并非都是在同一天发生的,这就是我认为我被绊倒的地方。
我正在考虑以下情况——假设血压是未来住院的一个很好的预测指标。
- 患者 1 的血压读数在 5 年前上升,然后在 14 天后住院。
- 患者 2 的血压读数在 3 年前上升,然后在 11 天后住院。
- 患者 4 的血压读数在 2.5 年前一直在上升,然后在 17 天后住院,但在去年有许多血压升高并没有导致住院的实例。
- 患者四过去的血压测量值一直在上升,但从未入院。
我如何构建这些数据,以便如果所有患者现在的血压读数都在上升,它可能会导致预测
- 患者一和二可能在未来 60 天内住院
- 预计患者 3 和 4 可能不会在接下来的 60 天内住院。
我想我很难围绕如何使用与任何给定患者不相符的广泛过去历史,在时间和数据可用性方面(例如,我可能永远没有给定患者的血压读数) ,但是因为他们不知道如何在医疗系统中导航,所以他们每个月都会乘坐救护车去急诊室,因此,预计他们很可能会在接下来的 90 天内在任何一天住院),同时也考虑到新近度。
我最初想为每位患者每天排一排,但这并不能让我充分利用患者的整个病史,我认为这将非常重要。这是我一直在问自己的另一个问题......假设每一行都是一个病人,我有一个名为blood_pressure_reading. 有没有办法在一个细胞内代表过去 5 年中所有患者的血压读数?我可以在这里放一组 NULL 和过去 5 年的实际读数吗?