我有一个数据库,每天每小时都有对象的测量值。但是,一些数据丢失了,我没有所有小时的测量值。为了克服这个挑战,我使用了不同的插值方法来创建这个缺失的数据(使用 pandas)。所以现在我有几个带有这些插值方法的数据库,我只需要一个。
我的问题是如何确定哪种插值是最好的插值方法?
我研究过互联网,但主要是找到关于如何插入数据的解释,而不是如何选择最佳方法以及如何将其可视化。
我有一个数据库,每天每小时都有对象的测量值。但是,一些数据丢失了,我没有所有小时的测量值。为了克服这个挑战,我使用了不同的插值方法来创建这个缺失的数据(使用 pandas)。所以现在我有几个带有这些插值方法的数据库,我只需要一个。
我的问题是如何确定哪种插值是最好的插值方法?
我研究过互联网,但主要是找到关于如何插入数据的解释,而不是如何选择最佳方法以及如何将其可视化。
想到的最基本的方法是拆分测试集:
获取您记录了所有变量的数据,您可能需要在另一组中推断这些变量,并拆分其中的一部分并“屏蔽”或隐藏您希望在此拆分中插入的变量(可能使用来自另一部分的数据如果您使用某种经过训练的插值,则为拆分)。
将您使用的不同插值方法的结果与最适合您的数据目的的指标(例如均方误差、平均绝对误差、逻辑损失,甚至可能)上的实际值(已取出)进行比较在数据集上训练的某些机器学习方法的结果)。
这样,您将找到最适合您的数据 + 问题的插值方法。
要记住的一件事是,您的掩码应该遵循与您的实际缺失数据相同的(如果有的话)模式:例如,如果它只发生在某些时间段内,那么您的掩码方法应该尽可能遵循该模式。