静态 ML 模型还是时间序列?当我具有时变特征但大多数特征是恒定的时,如何建模/预测二进制目标?

数据挖掘 分类 时间序列 特征选择 xgboost
2022-02-20 11:58:07

我一直在处理来自患者的真实世界数据。我有一个包含 1000 万患者信息的数据集;在不同时期(5 到 20 年)内收集。

  • 我预测的是二元风险(或者可能是该风险的概率),
  • 大多数特征是不变的(家族史,吸烟者(y/n)...),但是,
  • 我有一些与时间相关的特征(例如,体重、胆固醇值、葡萄糖值...),
  • (此外,这些特征是在不同的时间点收集的,即,对于某些患者,我们有半年的信息,对于某些患者,我们在 15 年内有 2 次测量)
  • 到目前为止,我一直在使用 XGBoost 分类器或其他分类器预测我的目标,因为我的特征是静态的(通过平均值,或使用最新的)。
  • 我可以尝试对这种情况使用时间序列吗?或者只是坚持使用 ML 分类器并尝试以另一种方式合并值的进展?
  • 有人遇到过类似的问题吗?

干杯!

1个回答

只需从时间数据中提取特征并将其添加到您的列中并用于预测。这是最简单的方法。

另一种方法是使用任何嵌入方法将时间数据转换为向量,并将这些向量与其他特征(您称为静态特征)一起使用。自动编码器、基于图形的时间序列嵌入或转换器(来自 NLP 领域)可用于此类嵌入。一般来说,您可以做一个简单的研究,看看有哪些方法可以嵌入时间序列