机器算法验证 - 寻找“平均影响”统计数据的名称 - 吾爱随笔录

寻找“平均影响”统计数据的名称

机器算法验证意思是术语测量

2022-04-06 07:44:15

我一直在使用统计数据来衡量“影响”或一些类似的概念，方法如下：

首先计算给定样本的平均值，然后依次计算给定样本的平均值，不包括每个观测值。从前者中减去后者。结果是一个向量，测量样本均值因包含每个观测值而增加的量。

像这样（或多或少）：

\frac{\sum_{i = 1}^{n}}{n} - \frac{\sum_{i \neq 1}^{n}}{n - 1}

$\frac{\sum_{i = 1}^{n}}{n} - \frac{\sum_{i \neq 1}^{n}}{n - 1}$

对我来说，这让人想起回归中“杠杆”的概念，但我想知道是否

这种特定的衡量标准已在其他地方使用过——尤其是在统计文献中。
这个具体的措施有一个名字

在此先感谢您的时间。

2个回答

均值是数据对常数回归的系数 $1$ . 在此回归上下文中，您的统计数据是Belsley, Kuh, & Welsch, Regression Diagnostics (J Wiley & Sons, 1980)中定义的最简单的DFBETA诊断示例：

...我们首先看一下估计回归系数的变化，如果 $i^\text{th}$ 行被删除。表示用 $i^\text{th}$ 被删除的行 $\mathbf{b}(i)$ ，这个变化很容易从公式中计算出来

$D F B E T A_{i} = b - b (i) = \frac{(X^{T} X)^{- 1} x_{i}^{T} e_{i}}{1 - h_{i}}$ $DFBETA_i = \mathbf{b} - \mathbf{b}(i) = \frac{(X^T X)^{-1} x_i^T e_i}{1 - h_i}$

在哪里

$h_{i} = x_{i} (X^{T} X)^{- 1} x_{i}^{T} \dots$ $h_i = x_i (X^T X)^{-1} x_i^T \ldots$

[第 12-13 页，公式 (2.1) 和 (2.2)]。

在这种情况下，设计矩阵 $X$ 是个 $n$ 经过 $1$ 矩阵，从哪里来 $(X^T X)^{-1} = 1/n$ . 号码 $e_i$ 是残差，

e_{i} = x_{i} - \bar{x} .

$e_i = x_i - \bar{x}.$

所以

\begin{aligned} D F B E T A_{i} & = \frac{x_{i} - \bar{x}}{n - 1} = \frac{1}{n - 1} (x_{i} - \frac{1}{n} \sum_{j = 1}^{n} x_{j}) \\ = \frac{1}{n} \sum_{j = 1}^{n} x_{j} - \frac{1}{n - 1} \sum_{j \neq i} x_{j} . \end{aligned}

$\eqalign{ DFBETA_i &= \frac{x_i - \bar{x}}{n - 1} = \frac{1}{n-1}\left(x_i - \frac{1}{n}\sum_{j=1}^n x_j \right) \\ &= \frac{1}{n}\sum_{j=1}^n x_j - \frac{1}{n-1}\sum_{j \ne i} x_j \text{.} }$

它接近（如果不完全是）当地影响和/或库克的距离。

JRSS B，卷。48, No. 2, 1986, p.133-169 是经典论文。有点密集，但一个开始寻找文献的地方。

其它你可能感兴趣的问题

上一篇数据的贝叶斯分析下一篇时间序列的滑动窗口验证