机器算法验证 - 什么是偏差？（特别是在 CART/rpart 中） - 吾爱随笔录

什么是偏差？（特别是在 CART/rpart 中）

机器算法验证 r 大车 rpart 越轨

2022-02-05 08:10:25

什么是“偏差”，它是如何计算的，它在统计的不同领域有什么用途？

特别是，我个人对它在 CART 中的使用（以及它在 R 中的 rpart 中的实现）感兴趣。

我问这个是因为维基文章似乎有些缺乏，你的见解将受到欢迎。

3个回答

偏差和 GLM

形式上，可以将偏差视为两个概率模型之间的一种距离。在 GLM 上下文中，它等于两个嵌套模型之间的似然比的两倍，其中是“较小”模型；也就是说，正如@suncoolsu 所说，对模型参数的线性限制（参见Neyman-Pearson 引理）。因此，它可用于执行模型比较。它也可以看作是对 OLS 估计（ANOVA，回归）中使用的 RSS 的概括，因为它提供了与空模型（仅截距）相比被评估模型的拟合优度的度量。它也适用于 LM： $\ell_1/\ell_0$ $\ell_0$

> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)

残差 SS (RSS) 计算为，很容易得到： $\hat\varepsilon^t\hat\varepsilon$

> t(residuals(lm.res))%*%residuals(lm.res)
         [,1]
[1,] 98.66754

或来自（未调整的） $R^2$

> summary(lm.res)

Call:
lm(formula = y ~ x)

(...)

Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175 
F-statistic: 71.97 on 1 and 98 DF,  p-value: 2.334e-13

因为其中是总方差。请注意，它可以直接在 ANOVA 表中使用，例如 $R^2=1-\text{RSS}/\text{TSS}$ $\text{TSS}$

> summary.aov(lm.res)
            Df Sum Sq Mean Sq F value    Pr(>F)    
x            1 72.459  72.459  71.969 2.334e-13 ***
Residuals   98 98.668   1.007                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

现在，看看偏差：

> deviance(lm.res)
[1] 98.66754

事实上，对于线性模型，偏差等于 RSS（您可能还记得在这种情况下 OLS 和 ML 估计值是一致的）。

偏差和购物车

视为一种将已标记的个体分配到任意类别（在分类上下文中）的方法。树可以被视为为个人类别成员资格提供概率模型。因此，在每个节点处，我们有一个类的概率分布。这里重要的是，树的叶子为我们提供了指定的多项分布 ik} 。因此，我们可以将树的偏差定义为所有叶子的总和 $n$ $i$ $p_{ik}$ $n_{ik}$ $p_{ik}$ $D$

D_{i} = - 2 \sum_{k} n_{i k} \log (p_{i k}),

$D_i=-2\sum_kn_{ik}\log(p_{ik}),$

遵循 Venables 和 Ripley 的符号（MASS，Springer 2002，第 4 版）。如果您可以访问 R 用户的基本参考（恕我直言），您可以自己检查如何使用这种方法来拆分节点并将树拟合到观察到的数据（第 255 页 ff.）；基本上，这个想法是通过修剪树来最小化其中中的节点数。在这里，我们认识到成本复杂性的权衡。这里，相当于节点杂质的概念（即，给定节点分布的异质性），它基于熵或信息增益的度量，或众所周知的基尼指数，定义为 $D+\alpha \#(T)$ $\#(T)$ $T$ $D$ $1-\sum_kp_{ik}^2$ （未知比例是从节点比例估计的）。

定义的平方和 $j$

D_{i} = \sum_{j} (y_{j} - μ_{i})^{2},

$D_i=\sum_j(y_j-\mu_i)^2,$

对所有叶子求和。这里，在每个叶子中考虑的概率模型是高斯。引用 Venables 和 Ripley (p. 256)，“是高斯 GLM 的通常比例偏差。但是，树内部节点的分布是正态分布的混合，因此仅适用于叶子。树构造过程必须被视为概率模型的分层改进，非常类似于回归中的前向变量选择。” 第 9.2 节提供了有关实现的更多详细信息，但您已经可以查看函数 $\mathcal{N}(\mu_i,\sigma^2)$ $D$ $D_i$ rpartresiduals()rpart对象，其中“偏差残差”计算为减去拟合模型对数的两倍的平方根。

Atkinson 和 Therneau对使用 rpart 例程进行递归分区的介绍也是一个好的开始。对于更一般的审查（包括装袋），我会推荐

莫森，GG（2008 年）。分类和回归树。生态信息学，第 582-588 页。
萨顿，CD（2005 年）。分类和回归树、Bagging 和 Boosting，统计手册，卷。24，第 303-329 页，Elsevier。

如果我们考虑一个具有与观测值一样多的参数的完美模型，这样它可以解释响应中的所有方差，这可能会更清楚一些。这是饱和模型。偏差只是衡量候选模型和饱和模型的“拟合”差异。

在回归树中，饱和模型的终端节点（叶子）与观测值一样多，因此它可以完美地拟合响应。更简单模型的偏差可以计算为节点残差平方和，对所有节点求和。换句话说，预测值和观测值之间的平方差之和。这与最小二乘回归中使用的误差（或偏差）相同。

对于分类树，残差平方和并不是最合适的失配度量。取而代之的是，有另一种偏差度量，可以构建树以最小化熵度量或基尼指数。后者是rpart. 基尼指数计算如下：

D_{i} = 1 - \sum_{k = 1}^{K} p_{i k}^{2}

$D_i = 1 - \sum_{k = 1}^{K} p_{ik}^2$

在哪里 $p_{ik}$ 是观察到的班级比例 $k$ 在节点 $i$ . 该度量是所有终端的总和 $i$ 树中的节点以得出拟合树模型的偏差。

偏差是用于检验模型相对于一般备选方案（即饱和模型）持有的原假设的似然比统计量。对于一些泊松和二项式 GLM，观测数 $N$ 随着个体数量的增加而保持固定。那么偏差具有卡方渐近零分布。自由度 = N - p，其中 p 是模型参数的个数；即，它等于饱和和非饱和模型中自由参数的数量。然后，偏差为模型拟合提供了检验。

$Deviance = -2[L(\hat{\mathbf{\mu}} | \mathbf{y})-L(\mathbf{y}|\mathbf{y})]$

但是，大多数时候，您想测试是否需要删除一些变量。说有两种型号 $M_1$ 和 $M_2$ 和 $p_1$ 和 $p_2$ 参数，你需要测试这两个中哪个更好。认为 $M_1$ 是一个特例 $M_2$ 即嵌套模型。

在这种情况下，采用偏差的差异：

$\Delta Deviance = -2[L(\hat{\mathbf{\mu}_1} | \mathbf{y})-L(\hat{\mathbf{\mu}_2}|\mathbf{y})]$

请注意，饱和模型的对数似然相消和自由度 $\Delta Deviance$ 更改为 $p_2-p_1$ . 当我们需要测试某些参数是否为0时，这是我们最常使用的。但是，当您适应偏差时glm，R输出是针对饱和模型与当前模型的。

如果您想更详细地阅读：cf：Alan Agresti 的分类数据分析，第 118 页。

其它你可能感兴趣的问题

上一篇如何使用 R 执行测试以查看数据是否服从正态分布下一篇为什么我的 p 值在逻辑回归输出、卡方检验和 OR 的置信区间之间存在差异？