机器算法验证 - 解释回归模型的方差 - 吾爱随笔录

解释回归模型的方差

机器算法验证方差

2022-03-15 04:16:23

这可能是一个简单的解释（无论如何我希望如此）。

我使用回归工具箱在 Matlab 中做了一些回归分析。但是，我遇到了一项研究，该研究表明：

“使用回归分析，可以建立一个预测模型，只使用四个声音特征来解释 60% 的方差”

如果需要，文章的链接在这里：文章

我不是 100% 确定这意味着什么，但我希望它是简单的。还有60%是好事吗？我试图搜索这个，但因为在“方差”这个词之前总是有一个百分比，所以很难找到答案。

2个回答

我将尝试用简单的术语来解释这一点。

回归模型侧重于因变量和一组自变量之间的关系。因变量是您尝试使用一个或多个自变量来预测的结果。

假设您有这样的模型：

Weight_i = 3.0 + 35 * Height_i + ε

现在一个明显的问题是：这个模型的效果如何？换句话说，一个人的身高在多大程度上准确地预测或解释了该人的体重？

在回答这个问题之前，我们首先需要了解我们观察到的人们体重的波动有多大。这很重要，因为我们在这里试图做的是通过使用他们的身高来解释不同人体重的波动（变化）。如果人们的身高能够解释这种体重变化，那么我们就有了一个很好的模型。

方差是用于此目的的一个很好的指标，因为它衡量一组数字分散的距离（从它们的平均值开始）。

这有助于我们重新表述我们最初的问题：一个人的体重有多少变化可以用他/她的身高来解释？

这就是“解释百分比方差”的来源。顺便说一句，对于回归分析，它等于相关系数R-squared。

对于上面的模型，我们或许可以做出这样的陈述：使用回归分析，可以建立一个预测模型，使用一个人的身高来解释60% 的体重变化”。

现在，60% 有多好？对此很难做出客观的判断。但是，如果您有其他竞争模型（例如，另一个使用一个人的年龄来预测他/她的体重的回归模型），您可以根据它们解释的差异程度来比较不同的模型，并决定哪个模型更好。（对此有一些警告，请参阅“解释和使用回归”——Christopher H. Achen http://www.sagepub.in/books/Book450/authors）

作者指的是 $R^2$ 由公式给出的模型的值

\frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}

$\frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

在哪里 $y_i$ 是观察值， $\hat{y}_i$ 的最小二乘拟合值 $i^\text{th}$ 数据点和 $\bar{y}$ 是整体平均值。我们有时会想到 $R^2$ 由于平方和分解的总和，作为模型解释的变异比例

\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} = \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} + \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2},

$\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ,$

后一项是模型未考虑的残差。这 $R^2$ 基本上告诉我们有多少整体变化已“吸收”到拟合值中。

其它你可能感兴趣的问题

上一篇如何执行非负岭回归？下一篇用于使用 Fisher 或 Stouffer 方法组合 p 值的 R 包