在线性回归之外(如果您认为这是一种 ML 方法),似乎我们在构建 ML 模型后没有检查残差。是否有一个原因?即使我们不做像正态性这样的假设,如果存在一些可辨别的模式,残差难道不能提供一些信息吗?或者大多数 ML 方法在消除任何类型的模式方面做得很好。
在构建 ML 模型时不检查残差的原因是什么?
主要理由是(错误地)认为投资回报率低。
缺乏时间和不适当的培训使问题变得混乱。在较小程度上,这些点分别因懒惰和技术难度而加剧。
尤其是对于更复杂的模型,越来越难以推断模型为何做出特定预测。是的,有多种技术可以解释 ML 预测(例如 LIME、SHAP、部分依赖和累积局部效应图等),但这些都是“额外步骤”。即便如此,也许在努力获得 SHAP 力图或 ALE 图来解释特定预测之后,我们仍然存在如何影响模型预测的问题。我们提出了一些新问题,但通常没有立即得到答案。
请注意,在工业 ML 应用程序中,“通常”我们将预测作为我们工作的主要可交付成果。只要整体 RMSE/MAE/Huber 损失是“OK”的,我们就会发布模型。关于实际模型估计和/或归因(重要性)的问题通常被降级为“很好”。Efron 最近发表了一篇题为“预测、估计和归因”的富有洞察力的讨论论文,进一步强调了这些差异。我想你也会发现它在这个问题上很有启发性。
只是要明确一点:您说“残差提供了一些信息”是绝对正确的。只是在许多情况下,没有考虑提取、解释该信息然后对其进行适当解释的时间。人们应该始终检查模型残差、执行一些模型抽查等。即使是最强大的 ML 方法也远非银预测时的子弹。
我倾向于不同意 user11852 的回答。这是我的想法:
使用传统的统计模型,例如回归,人们指定了一个模型结构,他/她认为该模型结构是(或最)合理近似于一些潜在的“数据生成”模型。如果该单一模型结构实际上与数据不太相符……即,它是“错误指定的”……那么残差中的某些非随机模式通常会暴露出拟合不足。因此,我们寻找这样的模式,作为可能存在更好模型规范的建议。
然而,大多数 ML 技术的一个关键方面,尤其是 Efron 的论文所描述的那些旨在“纯粹预测”的技术,是人类不会为未知/看不见的数据生成过程假设或注入任何特定结构。该算法在数据中发现并学习模式,但通常它本质上并不会创建任何普通人可以理解的东西作为底层数据模型。(集成方法甚至可以结合许多非常不同的模型,也就是难以理解的立方体。)因此标签为“黑匣子”。
但是,机器学习算法的残差模式有价值的想法依赖于一个潜在的假设,即可能存在模型错误规范。
我远非学术专家,但我不知道有任何已发表的关于 ML 的论文在残差中发现了模式,可以用来为更好的指定模型提供信息。如果由于算法的工作方式没有这样的模式,那么在残差中寻找模式只会导致发现的错觉。那将是负投资回报率所花费的时间。
上面提到的 Effron 的 2019 年论文(顺便说一句,TU 之前没见过)确实有几个“概念漂移”的例子,作为一种具有模式的预测错误。然而,我的信念是,在一组 x'es 中包含一个或多个变量、捕获日期或数据收集序列顺序,将允许 ML 算法识别和补偿其预测中的漂移。所以我不认为 Efron 的表述和概念漂移的例子是对我关于 ML 残差的论点的令人信服的反驳。
欢迎其他观点和回击!我们是来学习的。