一些回归算法(例如高斯过程回归)可能会在测试时产生不确定性以及点预测。
这些也应该被评估。如何计算回归模型预测的标准偏差与实际绝对误差之间的 Pearson 相关性?从概念上讲,我的意思是,您将绘制每个测试点的真实绝对误差与这些测试点的模型预测不确定性的散点图。
这只是一个快速的第一个想法。是否有其他常用方法来评估预测不确定性的质量?
一些回归算法(例如高斯过程回归)可能会在测试时产生不确定性以及点预测。
这些也应该被评估。如何计算回归模型预测的标准偏差与实际绝对误差之间的 Pearson 相关性?从概念上讲,我的意思是,您将绘制每个测试点的真实绝对误差与这些测试点的模型预测不确定性的散点图。
这只是一个快速的第一个想法。是否有其他常用方法来评估预测不确定性的质量?
在回归中,有两种不同的“不确定性”,它们对应于置信区间和预测区间之间的差异(并且经常是混淆):
您可能在参数估计中有不确定性。这些被捕获在置信区间s。反过来,这些也很难评估,因为我们通常不知道参数的真实值。因此,我们通常能做的最多的是 CI 的理论质量保证,通常仅在大样本限制中。
您可能对未来的可观测数据有不确定性,这些数据在预测区间s 或更普遍的预测密度。这些可以更容易地评估,因为我们实际上会在某个时候观察这些可观察的。
This previous thread讨论了预测区间的评估——最常用的工具是区间分数。反过来,使用适当的评分规则评估预测密度。
更多信息和参考文献可以在Petropoulos 等人中找到。(2021 年),预测:理论与实践(最近在International Journal of Forecasting上接受发表),特别是预测区间的第 2.12.2 节(完全披露:我写了那部分)和 Florian Ziel 的第 2.12.4 节预测密度。