我正在处理对小型实验数据集的建模。由于大多数实验工作不会产生数千个样本,而是产生少量样本,因此我需要对如何处理这少量数据集(比如 10-20)具有创造性。我一直在构建一个很好的框架来做到这一点,在这一点上,我有兴趣使用预测值生成误差线。
粗略地说,这是框架中发生的事情(例如,当应用多线性模型时):
- 创建一个合奏数据集。
- 在每个数据集上,回归会产生一个(线性)模型,如下面的公式 1 所示。这导致每个系数的值.
- 计算三组中每组的平均值s。(平均值也可以是另一个函数,但现在,假设它是平均值)
- 这三个意思s 是要使用的模型的系数(同样是 Eq.1)。
- 目标:在公式 1 中找到模型的预测区间 (PI),同时考虑系数是根据数值分布计算的。
以下面的多元线性回归模型为例:
我正在寻找一个代数方程来计算(数字)新预测的预测区间(PI)(置信区间可以,并且它与 PI 相关)。
到目前为止,我的搜索只能为我提供处理数据集统计性质的答案(的)。这些为我提供了一个错误组件:
可用于计算 PI,通过:
与这些示例相比,每个模型系数 (和)在这种情况下有一个误差条(通过从分布中引导提取,分布本质上是数值而不是分析的,并且分布对于三个系数中的每一个都是特定的)。有没有办法将不确定性纳入的(cq “误差线”)在计算 PI(和 CI)?
注意: 我知道,可以使用从它们各自的分布中提取,并基于获得的分布计算CI的,但这并不是真正的计算效率,并且带来了许多我想避免的其他问题。