用于逻辑回归的帽子矩阵信息

机器算法验证 回归 物流
2022-03-20 07:01:04

我很清楚,并且在多个站点上都有很好的解释,帽子矩阵对角线上的值为线性回归提供了哪些信息。

逻辑回归模型的帽子矩阵对我来说不太清楚。它与应用线性回归从帽子矩阵中得到的信息相同吗?这是我在另一个 CV 主题中找到的帽子矩阵的定义(来源 1):

H=VX(XVX)1XV

其中 X 是预测变量的向量,V 是与的对角矩阵。(π(1π))

换句话说,观察的帽子矩阵的特定值是否也只是表示协变量在协变量空间中的位置,与该观察的结果值无关?

这是在Agresti的《分类数据分析》一书中写的:

观察的杠杆越大,它对拟合的潜在影响就越大。与普通回归一样,杠杆率介于 0 和 1 之间,并与模型参数的数量相加。与普通回归不同,帽子值取决于拟合以及模型矩阵,具有极端预测值的点不需要具有高杠杆率。

那么脱离这个定义,我们好像不能像我们在普通线性回归中使用它一样使用它?

资料来源 1:如何计算 R 中逻辑回归的帽子矩阵?

1个回答

让我稍微改变一下符号并将帽子矩阵写为 其中是具有一般元素的对角对称矩阵表示为具有相同协变量值的个体组。您可以获得对角元素()为 然后 h_j 的总和线性回归中的参数数量。现在回答你的问题:

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

帽子矩阵中杠杆值的解释取决于估计的概率如果,您可以以与线性回归情况类似的方式解释杠杆值,即离均值越远,值越高。如果您处于概率分布的极端,这些杠杆值可能不再以同样的方式衡量距离。如下图所示,取自 Hosmer 和 Lemeshow (2000):π0.1<π<0.9

在此处输入图像描述

在这种情况下,协变量空间中的最极端值可以为您提供最小的杠杆作用,这与线性回归的情况相反。原因是线性回归中的杠杆是一个单调函数,非线性逻辑回归不是这样。在帽子矩阵的对角线元素的上述公式中存在一个单调增加的部分,它表示与平均值的距离。那就是部分,如果您只对距离本身感兴趣,您可能会查看它。逻辑回归的大多数诊断统计都利用了充分的杠杆,因此很少单独考虑这个单独的单调部分。xj(XVX)1xjhj

如果您想更深入地了解这个主题,请查看 Pregibon (1981) 的论文,他导出了逻辑帽矩阵,以及 Hosmer 和 Lemeshow (2000) 的书。