“样本内”和“样本外”预测之间有什么区别?

机器算法验证 预测
2022-02-04 13:05:42

我不明白“样本内”和“样本外”预测之间到底有什么区别?样本内预测利用可用数据的子集预测估计期之外的值。样本外预测会使用所有可用数据这些是正确的吗?

非常具体地说,以下定义是否正确?

样本内预测利用可用数据的子集来预测估计期之外的值,并将它们与相应的已知或实际结果进行比较。这样做是为了评估模型预测已知值的能力。例如,从 1980 年到 2015 年的样本内预测可能使用 1980 年到 2012 年的数据来估计模型。使用此模型,预测者将预测 2013-2015 年的值,并将预测值与实际已知值进行比较。相反,样本外预测使用样本中的所有可用数据来估计模型。对于前面的示例,估计将在 1980-2015 年进行,预测将从 2016 年开始。

4个回答

“样本”是指您用于拟合模型的数据样本。

首先 - 你有一个样本
第二 - 你在样本上拟合模型
第三 - 你可以使用模型进行预测

如果您正在预测作为数据样本一部分的观察 - 它是样本内预测。

如果您正在预测不属于数据样本的观察 - 它是样本外预测。

所以你必须问自己的问题是:特定观察是否用于模型拟合?如果它用于模型拟合,那么观测的预测是样本内的。否则为样本外。

如果您使用 1990-2013 年的数据来拟合模型,然后您预测 2011-2013 年,则它是样本内预测。但如果你只使用 1990-2010 年来拟合模型,然后你预测 2011-2013 年,那么它的样本外预测。

假设在您的样本中,您有 10 个数据点的序列。这些数据可以分为两部分——例如,前 7 个数据点用于估计模型参数,接下来的 3 个数据点用于测试模型性能。使用拟合模型,前 7 个数据点的预测称为样本内预测,后 3 个数据点的预测称为样本外预测。这与将数据拆分为训练集和验证集的想法相同。

下图将帮助您了解IN TIMEOUT OF TIME

在此处输入图像描述

样本内预测是正式评估使用观察数据开发的模型的预测能力的过程,以了解算法在再现数据方面的有效性。它有点类似于机器学习算法中的训练集,样本外类似于测试集。