我一直在处理来自患者的真实世界数据。我有一个包含 1000 万患者信息的数据集;在不同时期(5 到 20 年)内收集。
- 我预测的是二元风险(或者可能是该风险的概率),
- 大多数特征是不变的(家族史,吸烟者(y/n)...),但是,
- 我有一些与时间相关的特征(例如,体重、胆固醇值、葡萄糖值...),
- (此外,这些特征是在不同的时间点收集的,即,对于某些患者,我们有半年的信息,对于某些患者,我们在 15 年内有 2 次测量)
- 到目前为止,我一直在使用 XGBoost 分类器或其他分类器预测我的目标,因为我的特征是静态的(通过平均值,或使用最新的)。
- 我可以尝试对这种情况使用时间序列吗?或者只是坚持使用 ML 分类器并尝试以另一种方式合并值的进展?
- 有人遇到过类似的问题吗?
干杯!