处理有间隙的时间序列数据

数据挖掘 r 数据集 可视化 数据清理 图形模型
2022-03-06 13:31:48

我正在研究一个每天进行物理测量(体重、bmi 等)的数据集,并且我正在通过该过程以图形方式表示它。我认为值得注意的是,每一天都有对应的行,但如果不进行测量,则值与前一天相同。

这是我试图管理的趋势示例:

Date, Weight, BMI
1/1/2016, 155.1, 21.9
1/2/2016, 155.1, 21.9
1/3/2016, 155.1, 21.9
--continued for several weeks--
3/1/2016, 170.2, 25.0
3/2/2016, 170.1, 25.0

编辑:我应该澄清这些重复的值是数据如何组合在一起以查找缺失值。重复的天数是没有测量​​的天数

如果值在很长一段时间内保持不变,任何图形表示中是否应该存在差距?我应该将数字保持原样(155.1 和 21.9)直到进行下一次测量,还是应该在这段时间内增加数字以“弥合差距” - 这意味着它们将通过测量差异除以天数而增加?

感觉我应该随着时间的推移增加价值来解释现实中会发生什么,但我不知道这是否会对数据产生负面影响。

1个回答

我会以不同于缺失数据的方式表示实际的重复值。后者是直截了当的;前者我会用Gaussian process regression进行插值。这样你就可以得到像这样的错误栏:

高斯过程回归

请注意样本函数(以及误差条)在您离开和接近测量值时如何扩展和收缩,正如您直观预期的那样。