“样本内”和“伪样本外”预测之间的差异

机器算法验证 预测 模型比较 样本外 样本内
2022-03-21 03:37:09

样本内预测伪样本外预测之间是否存在明显差异两者都是在评估和比较预测模型的背景下进行的。

1个回答

假设你有数据,其中你的目标是建立一个模型(比如, ) 在给定的情况下预测具体而言,假设数据是每天,对应今天。{Yt,Xth}t=h+1Th{1,2,},f^(Xth)YtXthT

的所有可用数据来估计模型,然后将模型的拟合值与实际实现进行比较。然而,众所周知,这个过程对模型的预测能力过于乐观,因为常见的拟合算法(例如使用平方误差或似然标准)往往会努力避免大的预测误差,因此容易受到过度拟合 - 错误噪声的影响用于数据中的信号。T

真正的样本外分析是根据截至今天(包括今天)的数据估计模型,构建明天值的预测,等到明天,记录预测误差重新估计模型,对进行新的预测,等等。在本练习结束时,将有一个预测误差样本,这将是真正的样本外,并且会给出一个非常真实的图片模型的性能。YT+1eT+1YT+1f^(XT+1h),YT+2{eT+l}l=1L

由于这个过程非常耗时,人们经常求助于“伪”或“模拟”样本外分析,这意味着模仿上一段中描述的过程,使用一些历史日期,而不是比今天的日期,作为起点。然后使用得到的预测误差来估计模型的样本外预测能力。T0<TT{et}t=T0+1T

请注意,伪样本外分析并不是估计模型样本外性能的唯一方法。替代方案包括交叉验证和信息标准。

第 7 章对所有这些问题进行了很好的讨论。

[旧链接]

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

[新链接,2021 年 11 月 1 日]

https://web.stanford.edu/~hastie/Papers/ESLII.pdf