寻找“平均影响”统计数据的名称

机器算法验证 意思是 术语 测量
2022-04-06 07:44:15

我一直在使用统计数据来衡量“影响”或一些类似的概念,方法如下:

首先计算给定样本的平均值,然后依次计算给定样本的平均值,不包括每个观测值。从前者中减去后者。结果是一个向量,测量样本均值因包含每个观测值而增加的量。

像这样(或多或少):

i=1nni1nn1

对我来说,这让人想起回归中“杠杆”的概念,但我想知道是否

  1. 这种特定的衡量标准已在其他地方使用过——尤其是在统计文献中。
  2. 这个具体的措施有一个名字

在此先感谢您的时间。

2个回答

均值是数据对常数回归的系数1. 在此回归上下文中,您的统计数据是Belsley, Kuh, & Welsch, Regression Diagnostics (J Wiley & Sons, 1980)中定义的最简单的DFBETA诊断示例:

...我们首先看一下估计回归系数的变化,如果ith行被删除。表示用 ith被删除的行b(i),这个变化很容易从公式中计算出来

DFBETAi=bb(i)=(XTX)1xiTei1hi

在哪里

hi=xi(XTX)1xiT

[第 12-13 页,公式 (2.1) 和 (2.2)]。

在这种情况下,设计矩阵X是个n经过1矩阵,从哪里来(XTX)1=1/n. 号码ei是残差,

ei=xix¯.

所以

DFBETAi=xix¯n1=1n1(xi1nj=1nxj)=1nj=1nxj1n1jixj.

它接近(如果不完全是)当地影响和/或库克的距离。

JRSS B,卷。48, No. 2, 1986, p.133-169 是经典论文。有点密集,但一个开始寻找文献的地方。