如何使用最小二乘回归找到 +/- 不确定性

机器算法验证 回归 不确定
2022-04-09 17:48:13

我有一组数据点,每个点都有不确定性。从这些数据点我可以拟合一条线,斜率是一个重要的值。我如何使用我必须得到的信息来估计我的最终值我只能在网上找到有关的信息。如果在 python/numpy/scipy 中有一种简单的方法可以做到这一点,则可以加分。σR2χ2

2个回答

您可以将其视为多重插补问题。基本上,您只需指定分布来表征每个点的不确定性,然后对数据集进行多次绘制。使您的模型适合每组绘图。然后,您对系数进行平均,对方差-协方差矩阵进行平均,并向 VCV 添加一个非负校正,以反映模型彼此之间的差异。

我发现 Gelman 对它的处理在介绍级别上是非常易读的。公式位于组合多重插补部分的末尾:

www.stat.columbia.edu/~gelman/arm/missing.pdf

一皱:噪音是非独立的吗?一个点的错误会预测另一点的错误吗?如果是这样,您需要指定联合分布才能使用 MI,并从多元 pdf 中提取。这会更棘手。

编辑: MI 为您提供适当膨胀的 SE。我不确定你会如何使用它来获得膨胀的σ

考虑一个线性估计器拟合线性回归y^=Xθθ=(XX)1Xy

如果是观测值的协方差,则由(见引理)给出:Cy=diag(σ12,σ22,,σm2)yθ

Cθ=(XX)1XCyX(XX)1

引理

线性映射的协方差是的协方差y=Ax+bCy=ACxACxx