为什么这些图中的 SE 区域差异如此之大

机器算法验证 回归 线性模型 黄土
2022-03-11 07:57:31

我正在使用 ggplot 和 Python 来显示回归/相关性。使用 method='lm' (表示“线性模型”),我得到以下图表:

在此处输入图像描述

使用method='loess',我得到以下信息:

在此处输入图像描述

黄土法的 SE 区域宽度比 lm 法宽得多。这是预期的还是某处有错误?

以下是获取上述数字的 Python 代码:

from ggplot import *
print (ggplot(aes(x='SL', y='PW'), data=irisdf) + \
    geom_point(alpha=0.3) + \
    stat_smooth(colour="black", se=True, method='lm')) 
    # or method='loess' in above line
plt.show()
2个回答

这是 LOESS/LOWESS(和其他散点图平滑器/非参数回归方法)的直接预期行为。

LOESS(LO ly E stimated S catterplot S moother)或多或少地估计y的值,仅使用一小部分 x 值的x观测,它通过移动“小范围”重复该估计,直到所有观察到的值x被覆盖。结果是:

  • 不假设yx之间存在线性关系,并且(对于您的问题很重要)
  • 对估计线的信心较低。

一些额外的点

  1. 估计线的这种更大的不确定性并不意味着非参数回归必须比相应的线性回归具有更低的功效:仅当yx之间的关系近似线性时才成立(检查最佳拟合中各个残差的大小直线穿过与x非线性相关的y数据的散射,以了解原因)。

  2. LOESS 和 LOWESS,以及 GAM 和其他非参数回归模型都依赖于上述x值的“小范围”。这可以表示为“带宽”或“跨度”(描述要包含在每个估计中的观察到的x值的总范围的比例)或“k 最近邻”( x轴上观察到的点的绝对数量包括)。

  3. 当试图决定是使用线性回归模型还是非参数回归模型时,我从后者开始,并询问直线是否适合非参数回归的置信区间;如果是,那么我继续使用线性回归,如果不是,我完成了,除非我出于某种原因需要参数估计(例如,统计推断、模型结果的通信、模型传输到不同的数据集),在这种情况下我继续根据非参数模型的形状,对合理的函数形式使用非线性最小二乘法。注意:我在这里遗漏了很多关于各种参数曲线拟合方法的内容。

我认为答案是你的两张图测量了两个完全不同的标准误差和相关的置信区间。

第一张图表示代表实际直线回归线的平均观测值周围的标准误差。根据定义,这组置信区间将围绕这样的回归线非常窄。正如您所看到的,这些置信区间仅包含一小部分数据点,而不是当置信区间使用 + 或 - 1.96 标准误差时通常 95% 的此类数据点。

第二张图看起来更传统,更宽泛的标准误差和置信区间,它们捕获了模型中 95% 或更多的数据点。我认为第二组置信区间有时被称为预测区间。

这两张图没有错。他们都是正确的。它们只是代表了人们一直混淆的完全不同的东西。