...最初发布在 StackOverflow 中(可能更适合这里)
- 小图:
我正在预处理不规则的高频时间序列数据。在一秒钟内,我可以拥有多个数据点,如下图所示timestamp:
"timestamp": "2018-06-03T12:27:54.253"
"timestamp": "2018-06-03T12:27:54.409"
"timestamp": "2018-06-03T12:27:54.548"
我正在为此时间序列数据开发采样方案,以便我可以减少数据点的数量,并在不丢失信息或引入任何偏差的情况下标准化时间步长。
到目前为止,我一直在pd.resample()我们数据的一小部分(5 天 ~ 200 万条记录)上使用 Pandas,将mean其用作聚合函数和线性插值。为了实验目的,我正在按秒、分钟和小时对数据进行下采样,以处理原始数据的不规则时间步长。
- 大图:
我正在处理从 elasticsearch 查询的数百万条记录(从 4 月到今天的数据),理想情况下,我希望在这个大型时间序列数据池中进行预处理/采样,以便仅获得具有统计意义的数据点。这个预处理步骤的目的是为了未来的数据探索/建模。
- 问题:
如何修改我当前的预处理方案以确保对数百万条记录进行最佳处理并仍然保持它们的统计属性(不引入偏差)?
我知道可能有更好的方法来处理此类数据。非常感谢任何输入...谢谢!