非线性回归周围的置信带和预测带是否应该围绕回归线对称?这意味着它们不像线性回归的带那样呈现沙漏形状。这是为什么?
这是有问题的模型:
下图是:
这是等式:
非线性回归周围的置信带和预测带是否应该围绕回归线对称?这意味着它们不像线性回归的带那样呈现沙漏形状。这是为什么?
这是有问题的模型:
下图是:
这是等式:
置信区间和预测区间通常会在接近末端时变得更宽——原因与它们在普通回归中总是这样做的原因相同;通常,参数不确定性导致末端附近的间隔比中间的间隔更宽
您可以通过模拟很容易地看到这一点,无论是通过模拟来自给定模型的数据,还是通过模拟参数向量的采样分布。
为非线性回归所做的通常(近似正确)计算涉及采用局部线性近似(这在 Harvey 的答案中给出),但即使没有这些,我们也可以对正在发生的事情有所了解。
但是,进行实际计算并非易事,程序可能会在计算中走捷径而忽略了这种影响。对于某些数据和某些模型,效果也可能相对较小且难以看到。实际上,对于预测区间,尤其是方差很大但数据量很大的情况下,有时很难在普通线性回归中看到曲线——它们看起来几乎是笔直的,并且相对容易辨别与笔直度的偏差。
这是一个示例,说明仅使用均值的置信区间很难看到(预测区间可能更难看到,因为它们的相对变化要小得多)。这是一些数据和非线性最小二乘拟合,具有总体均值的置信区间(在这种情况下,由于我知道真实模型,所以从抽样分布生成,但可以通过渐近逼近或自举来完成非常相似的事情):
紫色边界看起来几乎与蓝色预测平行……但事实并非如此。这是这些平均预测的抽样分布的标准误差:
这显然不是恒定的。
编辑:
您刚刚发布的那些“sp”表达式直接来自线性回归的预测区间!
此交叉验证页面中解释了计算非线性回归拟合曲线的置信度和预测带的数学。它表明这些带并不总是/通常是对称的。
这是一个用更多的词和更少的数学来解释:
首先,让我们定义 G|x,它是参数在特定 X 值处的梯度,并使用参数的所有最佳拟合值。结果是一个向量,每个参数有一个元素。对于每个参数,它被定义为 dY/dP,其中 Y 是给定 X 的特定值和所有最佳拟合参数值的曲线的 Y 值,P 是参数之一。)
G'|x 是转置的梯度向量,因此它是一列而不是一行值。Cov 是协方差矩阵(来自上次迭代的逆 Hessian 矩阵)。它是一个方阵,行数和列数等于参数个数。矩阵中的每一项都是两个参数之间的协方差。我们使用 Cov 来指代归一化协方差矩阵,其中每个值都在 -1 和 1 之间。
现在计算
c = G'|x * Cov * G|x。
结果是任何 X 值的单个数字。
置信带和预测带以最佳拟合曲线为中心,并在曲线上方和下方等量延伸。
置信带在曲线上方和下方延伸:
= sqrt(c)*sqrt(SS/DF)*CriticalT(置信度%, DF)
预测带在曲线上方和下方延伸更远的距离,等于:
= sqrt(c+1)*sqrt(SS/DF)*CriticalT(置信度%,DF)
在这两个方程中,c 的值(如上定义)取决于 X 的值,因此置信带和预测带与曲线的距离不是恒定的。SS 的值是拟合的平方和,DF 是自由度数(数据点数减去参数数)。CriticalT 是 t 分布中的常数,基于您想要的置信水平(传统上为 95%)和自由度数。对于 95% 的限制和相当大的 df,该值接近 1.96。如果 DF 较小,则该值较高。