我应该如何处理此股票报价数据的 NaN 值?

数据挖掘 时间序列 数据 数据争吵
2022-03-08 23:54:27

我用日期时间索引连接了 3 个股票报价数据帧。但是,它们的开始日期不同,因此生成的数据框包含具有较新开始日期的股票报价的 NaN 值。

在此处输入图像描述

我应该只删除带有 NaN 的行,然后用所有都有值的行开始新的数据框,还是有办法填充它们?我正计划使用这些数据来训练一个预测未来股票报价的神经网络。

1个回答

使用时间序列模型可以根据已经开始的报价填充 nan,但它不会带来您可以学习的新信息。充其量它会混淆模型在那个时期学到的东西。

然后是关于性能的更普遍的问题:无论有没有重建数据,模型的性能是否更好?只有你可以通过解决这个问题来回答......但我不确定你想要这个问题的答案。imo 的方法是放弃那个时间段,看看性能是否符合您的需要。如果不是这种情况,那么您应该考虑一些方法来添加更多数据。

在这种情况下,如果您想使用神经网络或使用接受 Nan 作为输入的方法(例如 Xgboost),我建议要么只删除 NaN。