我目前正在使用 D1NAMO 数据集 (1) 开展一个小型项目。我想根据几个特征预测血糖水平(数据集中给出):加速度计数据、心跳(ECG)数据、呼吸数据和其他一些特征。我有几个用户(006、007、008 等)都有几天的数据。
问题是目标值(葡萄糖)仅在 5 分钟内测量一次,而其他测量每隔几毫秒进行一次。这意味着在我的数据中,我有很多行没有目标值。例如,对于一个用户 (008),我有 214 行我有葡萄糖水平,大约 60.000 行葡萄糖是 NaN。我想使用一个没有时间概念的模型,所以它可以是任何东西,例如 FFNN、CNN、决策树 (XGBoost)、集成等。
我的问题:
- 如果我只有很少的目标值,我应该如何处理这个问题?我应该在 5 分钟的窗口内汇总所有值以匹配目标值吗?
- 我应该在实例级别还是人口级别上制作模型?
提前感谢您的任何回复。
(1) https://www-sciencedirect-com.vu-nl.idm.oclc.org/science/article/pii/S2352914818301059
