假设我有一个随机森林模型,并且模型的残差是自相关的。这是一个问题吗?
例如,假设我有两个不同的随机森林模型,A 和 B,具有相似的预测性能。模型 A 的残差自相关性低于模型 B 的残差。我应该更喜欢模型 A 吗?
假设我有一个随机森林模型,并且模型的残差是自相关的。这是一个问题吗?
例如,假设我有两个不同的随机森林模型,A 和 B,具有相似的预测性能。模型 A 的残差自相关性低于模型 B 的残差。我应该更喜欢模型 A 吗?
是的,残差中的自相关是一个问题,但这本质上是因为它清楚地说明了在您建模的过程中有更多可学习的信息,但您的模型错过了它。
万一您有两个性能相同的模型,但一个显示出显着的自相关(您可以使用诺亚韦伯的回答中建议的 Durbin-Watson 检验对此进行测试),这表明这两种模型都没有我们希望的那样工作(自相关模型未能预测某些可预测的模式,而另一个模型以其他方式失败,因为它的预测能力并没有更好)。
如果您有两个模型具有不同的残差,但都超过了一个幼稚的基线,那么您可能已经得到了可以很好地集成的模型。
如果自相关显着,则选择模型 A
残差=“预测中的错误”应该是完全随机的,即遵循白噪声。现在,如果某些东西是显着自相关的,它就不会是真正随机的,并且独立误差模型是不正确的,它也不会是一个稳健的方差估计器。首选A型
如何衡量显着的自相关?德宾-沃森测试
如果您拟合模型并在残差中找到有意义的信号,则应该设计更多或更好的特征来捕获该信号。
一个具体的例子是Ferraciolli 等人的“忽略空间自相关导致低估甘蔗产量模型的误差”,该研究发现:
我们表明,在建模收益率时假设独立性会导致低估模型错误和过度拟合……
然后他们改变了特征选择过程以减少这些错误。