问题是:我可以在数据分析之前删除某个id的所有行,因为它缺少数据吗?更具体地说,我将给出上下文和具体问题:
语境
我有一个从 1960 年到 2018 年的每日时间序列数据框,其中每次观察都是对与 133 条河流(id 是河流)相关的降水、温度和水位的测量。因此,对于每条河流,我将在 1960 年到 2018 年之间的特定日期、特定年份获得所需的所有测量值。我需要预测河流水位。
我做了这个缺失值图以获得一些见解(百分比越低,那一年该流量的数据越低):
输入
为了删除或不删除缺失值(以及何时),该图中有三个与我有关的见解:
- 自 1960 年以来,每年都有越来越多的不同河流。
- 2018年有很多缺失数据(这是因为所有数据都停在当年的3月份)。
- 您有一些过去 35 年没有数据的河流(例如,图中的 83 到 87 条河流)。并且您有一些河流没有过去 10、5 或 2 年的数据(您可以在图中看到很多河流缺少 2017 年和 2018 年的数据)。
问题
我是否应该考虑所有河流数据进行预测,即使是那些没有过去 X 年数据的河流?因为没有过去 X 年的数据来预测明年是没有意义的(但我确实有 1980 年到 2000 年的数据)。如果我应该考虑它,我应该使用什么样的方法来预测,如果有的话?如果我不应该考虑它,我应该删除它吗?如果我应该删除它,我应该什么时候删除它?在数据分析之前还是之后进行预测?例如,在分析分布之前还是之后?(为了对河流进行分组以估算缺失值,因为它们具有不同的分布,但我可以找到一种对相似分布进行分组的方法)。在分析之前删除它们对我来说是有意义的,因为预测的噪音会更低,因为分析的数据将与预测的数据一致。
但是,如果我根本不删除它们,如果我想看一些整体分析,我会有更多的数据(即从 1960 年到 2018 年的趋势将是一个更具“代表性的趋势”)。之后删除,就预测(以及特征选择的洞察力)而言,它会增加噪音,因为用于分析的数据将不同于用于预测的数据(因为我将删除一些河流的完整数据)。
此外,我正在考虑假设如果河流没有过去 3 年的数据,那么测量河流的站就无法运行。但同样,如果该站无法运行,我是否应该考虑其数据以进行整体分析/洞察?
