首先需要说的是,对于预测评估,那么在样本之外,通常的是不够的。之所以如此,是因为通常的是根据残差计算的,即样本数量。R2R2
我们可以定义:R2=1–RSS/TSS
RSS = 残差平方和
TSS = 总平方和
这里的主要问题是残差不能很好地代表预测误差,因为在残差中,模型估计和模型预测精度都将使用相同的数据。如果使用残差 (RSS),预测精度会被夸大;可能发生过拟合。正如我们稍后看到的那样,即使是 TSS 也是不够的。然而我们不得不说,过去错误地使用标准进行预测评估是很常见的。R2
样本外 ( ) 保持了通常的想法,但代替 RSS 使用了正在分析的模型的样本外 MSE (MSE_m)。代替 TSS 使用了一个基准模型 (MSE_bmk) 的样本外 MSE。R2R2oosR2
R2oos=1–MSEm/MSEbmk
和之间的一个显着区别是R2R2oos
0≤R2≤1(如果包括常数项)
而−∞≤R2oos≤1
如果,则竞争模型的性能比基准模型更差/相等/更好。如果 ,则竞争模型可以完美地预测(新)数据。R2oos<=>0R2oos=1
在这里我们必须记住,即使对于基准模型,我们也必须考虑样本外的性能。因此,样本外数据的方差低估了。MSEbmk
据我所知,这项措施首次提出于:
预测样本外的超额股票收益:有什么能超过历史平均水平吗?- 坎贝尔和汤普森 (2008) - 金融研究回顾。其中,bmk 预测是基于预测时给定信息的普遍平均值。