为了预测的目的,我正在对时间序列数据运行岭回归。无论哪种方式,数据都是非正态的、高度相关的并且容易出现肥尾(财务数据)。我不是因为或错误而删除数据,只是因为它有助于预测。
我目前标准化并删除了= 3、4 或 5 个标准差,以改进基于 MAE、MSE 和调整后的 2的预测。但是,我想知道这是否是一种好方法,或者在这些情况下,剪裁或可能对数据进行缩尾处理通常是首选方法。是否有任何一种方法优于其他方法的好论据?
为了预测的目的,我正在对时间序列数据运行岭回归。无论哪种方式,数据都是非正态的、高度相关的并且容易出现肥尾(财务数据)。我不是因为或错误而删除数据,只是因为它有助于预测。
我目前标准化并删除了= 3、4 或 5 个标准差,以改进基于 MAE、MSE 和调整后的 2的预测。但是,我想知道这是否是一种好方法,或者在这些情况下,剪裁或可能对数据进行缩尾处理通常是首选方法。是否有任何一种方法优于其他方法的好论据?
将我上面的评论变成答案:
如果极值不是数据中的错误,那么您不会通过删除它们来帮助预测。相反,您忽略了模型无法很好解释的数据。我强烈建议您将它们保留在数据集中。即使你不能用你的模型解释它们,你对预测能力的估计也会比排除它们更准确。如果您认为他们对您的预测/结果有偏见,您可以使用稳健的方法(您似乎已经尝试过,使用 MAE 而不是 MSE)。
我所说的稳健方法是指将极值权重降低到较低程度的方法。例如,MSE 将使您的残差平方,这意味着极端值将对结果产生很大影响。如果您使用 MAE,因为缺少平方,这些值的影响会小得多。有一个完整的“稳健统计”子领域可以处理诸如您的问题,而无需删除数据。看看强大的标签。