如何将模型系数的不确定性纳入多元线性回归的预测区间

数据挖掘 预测建模 统计数据 预言 线性代数
2022-02-08 22:12:54

我正在处理对小型实验数据集的建模。由于大多数实验工作不会产生数千个样本,而是产生少量样本,因此我需要对如何处理这少量数据集(比如 10-20)具有创造性。我一直在构建一个很好的框架来做到这一点,在这一点上,我有兴趣使用预测值生成误差线。

粗略地说,这是框架中发生的事情(例如,当应用多线性模型时):

  1. 创建一个合奏N数据集。
  2. 在每个数据集上,回归会产生一个(线性)模型,如下面的公式 1 所示。这导致N每个系数的值β.
  3. 计算三组中每组的平均值βs。(平均值也可以是另一个函数,但现在,假设它是平均值)
  4. 这三个意思βs 是要使用的模型的系数(同样是 Eq.1)。
  5. 目标:在公式 1 中找到模型的预测区间 (PI),同时考虑系数β是根据数值分布计算的。

以下面的多元线性回归模型为例:

(1)y=β0+β1x1+β2x2
我正在寻找一个代数方程来计算(数字)新预测的预测区间(PI)y0(置信区间可以,并且它与 PI 相关)。

到目前为止,我的搜索只能为我提供处理数据集统计性质的答案(xi的)。这些为我提供了一个错误组件:

(2)V^f=s2x0(XTX)1x0T+s2
可用于计算 PI,通过:
(3)y=y0±tα/2,nkV^f

与这些示例相比,每个模型系数 (β0,β1β2)在这种情况下有一个误差条(通过从分布中引导提取,分布本质上是数值而不是分析的,并且分布对于三个系数中的每一个都是特定的)。有没有办法将不确定性纳入βi的(cq “误差线”)在计算 PI(和 CI)?


注意: 我知道,可以使用βi从它们各自的分布中提取,并基于获得的分布y0计算CI的y0,但这并不是真正的计算效率,并且带来了许多我想避免的其他问题。

1个回答

一种可能的解决方案是贝叶斯线性回归贝叶斯线性回归估计每个系数的后验分布。根据该后验分布,可以计算出一个可信区间。