使用回归模型进行预测:何时停止?

机器算法验证 回归 预言
2022-03-30 06:36:40

我从我的实验测量中计算了一个简单的线性回归模型,以便进行预测。我已经读到您不应该计算与可用数据相差太远的点的预测。但是,我找不到任何指导来帮助我知道我可以推断出多远。例如,如果我计算 50GB 磁盘大小的读取速度,我猜结果会接近实际。100GB、500GB 的磁盘大小呢?我怎么知道我的预测是否接近现实?

我的实验细节是:

我正在通过使用不同的磁盘大小来测量软件的读取速度。到目前为止,我通过在实验之间增加 5GB 的磁盘大小(总共 6 次测量)来测量 5GB 到 30GB。

在我看来,我的结果是线性的,标准误差很小。

2个回答

您正在搜索的术语是“外推”。问题在于,无论您拥有多少数据,以及您在磁盘大小上的端点之间有多少中间级别(即,在 5 和 30 之间),真正的底层函数总是可能存在某种程度的曲率,你根本没有能力检测到。结果,当您从端点向外外推时,小曲率会被放大,因为真正的函数会越来越远离您的拟合线。另一种可能性是,真正的函数在检查的范围内确实是完全直线的,但是在距您的研究终点一定距离处可能存在一个变化点。这类事情是不可能排除的;问题是,它们的可能性有多大,如果它们是真实的,你的预测会有多不准确?我不知道如何为这些问题提供分析性答案。我的预感是,当研究范围为 [5, 30] 时,距离 500 还很远,但没有真正的理由认为我的预感比你的预感更有价值。计算预测区间的标准公式将在您离开时显示一个扩展的区间x¯,看看这个区间是什么样子可能会有所帮助。尽管如此,您需要记住,您正在做出一个理论假设,即该线确实是完全笔直的,并且一直保持到您将用于预测该预测的合法性取决于数据和拟合以及该假设。 x

让我为@gung 的出色回答补充几点:

  • 根据您的领域,可能会有相关的规范(如 DIN/EN 或 ISO)。这可能不是预测硬盘读取速度的问题,但例如在分析化学中,规则不是外推时期。如果你想达到 500 GB,那么去做一些测量,包括 500 GB。

  • 建立线性模型的常用方法有两个重要假设

    • 显然,该函数是线性的。在实践中,线性延伸到无穷大通常不是一个很好的假设。例如,如果您读取的数据量大于硬盘容量,您还能期望找到线性度吗?

    • 通常,也假设同方差。这意味着错误/噪声的绝对量不依赖于依赖 ( ) 变量,这里:要读取的数据量。我不确定硬盘读数,但我体验(化学/化学计量学)通常介于恒定绝对噪声和恒定相对噪声之间(或者由于不同的噪声源而导致更复杂的行为)。 任何与恒定绝对量噪声状态的偏差都意味着外推的预测区间是严重错误的——通常它们会太窄。x

  • 即使满足这些假设,也要考虑这种外推的实际预测区间有多大:

    lm校准范围 lm外推

    (我采用了一些非常好的测量值的真实校准数据,并将其适应您的问题)。
    请注意, = 500 处的预测间隔已经是校准数据跨度总差异的两倍!如果你没有这么好的线性数据集,预测区间只会“爆炸”。xt