预测区间是否必须包含均值?

机器算法验证 意思是 预测区间
2022-04-06 22:53:45

我提出了一个概念问题,我遇到了一个巨大的问题。

假设一家公司的分布高度偏斜。类似于指数或对数正态的东西只是更极端。现在假设分布如此偏斜,以至于分布的平均值高于分布的 99% 百分位数。(Aka 1-2极高的值导致平均值与其他分布相比非常高)。

根据定义,如果此分布用于预测未来值(也就是分布中的随机样本),那么平均值不会在 95% 预测区间内是真的吗?

在我的大脑中,95% 的预测区间是 95% 的未来值将落在其之间的范围。对于任何分布,这应该完全等于下限的 0.025 百分位数和上限的 0.975 百分位数……如果平均值高于 0.975 百分位数,则平均值不会在 '95% 范围内预测区间”。

我想错了吗?报告预测似乎很奇怪

  • 平均预测值:6,000,0000
  • 95% 预测区间:[400,5000]。
2个回答

不,预测区间不需要包含平均值。我认为您的一些困惑可能是混合预测区间和置信区间。虽然预测区间的目标是包含一些确定性的随机变量的未来值,但置信区间的目标是包含真实的分布均值。

正如您在高度倾斜的分布中提到的那样,这些想法似乎相互矛盾。重要的是要认识到所提供的每个统计数据的价值。

均值的预测值为:

1)累积:随着越来越多的样本进入,它们的平均值将趋于真实平均值。因此,如果对累积值感兴趣(例如,如果您正在赌博并处理赢利或损失,那么您对累积效应感兴趣)那么平均值非常有用。

2)最小化平方残差:虽然平方残差是一个有点随意的兴趣量,但值得知道你的预测是最小化的。

但是,如果您的目标是最小化您的预测中的绝对误差,那么 6,000,000 的平均预测值就不是我想要的。

考虑圣彼得堡悖论中可能回报的分布:

概率(1)=1/2

概率(2)=1/4

概率(4)=1/8 ...概率(2^n)=1/2^(n+1)

均值发散并且超出任何合理的预测区间。(在这种情况下,中位数是 1,但我不知道我会使用什么来进行点预测。也许 Stephan Kolassa,见上文,有一个建议。)

还有另一个复杂情况: 假设您想要某个分布的 95% 预测区间(除了我刚才提到的那个)。你是从 2.5% 到 97.5% 还是从 0 到第 95 或从第 5 到第 100 或....?答案可能取决于你问这个问题的原因。