数学上合理的预测区间可以有一个负的下限吗?

机器算法验证 预测区间
2022-03-15 19:40:35

我已经使用 R 形成了一个岛上特有物种数量的 95% 预测区间。
我的下限是负数——这在数学上合理吗?

在预测区间中使用的线性模型中,使用的数据是: Area 岛屿的表面积,公顷 DiscSC 到圣克鲁斯的距离,km Elevation 高点的高程,以米为单位,编码如下:

selected.model <- lm(ES ~ Area + Elevation + DistSC + I(Elevation^2) 
                    + (Elevation:DistSC) + (A‌​rea:Elevation)) 

并进行逐步回归以找到这个“最佳”模型

我不确定预测间隔是如何工作的。我只是想确保它没问题。显然负数的物种是不正确的,但我知道它考虑了平均值的不确定性以及数据分散。

2个回答

数学与现实无关。所以你的负下预测带在数学上肯定是合理的。

然而,我认为这是一个很好的迹象,表明您使用了错误的数学,例如,普通最小二乘法(假设误差的正态分布)和计数数据(正态分布没有意义)。我建议使用泊松回归或一些更适合计数数据的类似方法。

它向我表明,您没有使用任何分析方法对结果进行适当的转换。例如,对于计数数据,流行的线性模型(特别是泊松回归或负二项式回归)将过程的对数建模为预测变量的线性函数。然后,从这种模型产生的任何预测值都必须取幂,因此是正的。

同样,当您对这些模型使用set to的predict.glm函数时,您会计算对数刻度上计数的对称预测区间。对这些值重新取幂可确保您有不包括 0 的区间。您会注意到取幂后的预测与在 predict 函数中设置时获得的预测相同。但是,两者都要求会使 R 感到困惑,因为 GLM 的链接转换意味着您将有非对称区间(FIT 的 SE 是根据转换后的结果量表计算的)。se.fitTRUEtype='response'type='response', se.fit=TRUE

有加法计数模型,就像二进制端点的加法风险模型一样,但我认为结果可能难以解释,并且对于接近支持边界值的预测(计数数据为 0),它们的行为是站不住脚的。因此,我不仅怀疑您的负面预测,而且怀疑您模型的所有其他预测。