如何处理只有有限目标值的数据?

数据挖掘 神经网络 决策树 xgboost 预处理 聚合
2022-03-14 09:52:52

我目前正在使用 D1NAMO 数据集 (1) 开展一个小型项目。我想根据几个特征预测血糖水平(数据集中给出):加速度计数据、心跳(ECG)数据、呼吸数据和其他一些特征。我有几个用户(006、007、008 等)都有几天的数据。

问题是目标值(葡萄糖)仅在 5 分钟内测量一次,而其他测量每隔几毫秒进行一次。这意味着在我的数据中,我有很多行没有目标值。例如,对于一个用户 (008),我有 214 行我有葡萄糖水平,大约 60.000 行葡萄糖是 NaN。我想使用一个没有时间概念的模型,所以它可以是任何东西,例如 FFNN、CNN、决策树 (XGBoost)、集成等。

我的数据快照: 在此处输入图像描述

我的问题:

  1. 如果我只有很少的目标值,我应该如何处理这个问题?我应该在 5 分钟的窗口内汇总所有值以匹配目标值吗?
  2. 我应该在实例级别还是人口级别上制作模型?

提前感谢您的任何回复。

(1) https://www-sciencedirect-com.vu-nl.idm.oclc.org/science/article/pii/S2352914818301059

1个回答

我会尝试两种不同的方法:

然后,我将比较使用这两种方法构建的模型的测试准确性。请记住,您的测试集必须由您具有葡萄糖水平的行组成 - 您不能使用插值数据构建它,那将是作弊!