解释回归模型的方差

机器算法验证 方差
2022-03-15 04:16:23

这可能是一个简单的解释(无论如何我希望如此)。

我使用回归工具箱在 Matlab 中做了一些回归分析。但是,我遇到了一项研究,该研究表明:

“使用回归分析,可以建立一个预测模型,只使用四个声音特征来解释 60% 的方差”

如果需要,文章的链接在这里: 文章

我不是 100% 确定这意味着什么,但我希望它是简单的。还有60%是好事吗?我试图搜索这个,但因为在“方差”这个词之前总是有一个百分比,所以很难找到答案。

2个回答

我将尝试用简单的术语来解释这一点。

回归模型侧重于变量和一组变量之间的关系。因变量是您尝试使用一个或多个自变量来预测的结果。

假设您有这样的模型:

Weight_i = 3.0 + 35 * Height_i + ε

现在一个明显的问题是:这个模型的效果如何?换句话说,一个人的身高在多大程度上准确地预测或解释了该人的体重

在回答这个问题之前,我们首先需要了解我们观察到的人们体重的波动有多大。这很重要,因为我们在这里试图做的是通过使用他们的身高来解释不同人体重的波动(变化)。如果人们的身高能够解释这种体重变化,那么我们就有了一个很好的模型。

方差是用于此目的的一个很好的指标,因为它衡量一组数字分散的距离(从它们的平均值开始)

这有助于我们重新表述我们最初的问题:一个人的体重有多少变化可以用他/她的身高来解释?

这就是“解释百分比方差”的来源。顺便说一句,对于回归分析,它等于相关系数R-squared

对于上面的模型,我们或许可以做出这样的陈述:使用回归分析,可以建立一个预测模型,使用一个人的身高来解释60% 的体重变化”。

现在,60% 有多好?对此很难做出客观的判断。但是,如果您有其他竞争模型(例如,另一个使用一个人的年龄来预测他/她的体重的回归模型),您可以根据它们解释的差异程度来比较不同的模型,并决定哪个模型更好。(对此有一些警告,请参阅“解释和使用回归”——Christopher H. Achen http://www.sagepub.in/books/Book450/authors

作者指的是R2由公式给出的模型的值

i=1n(y^iy¯)2i=1n(yiy¯)2

在哪里yi是观察值,y^i的最小二乘拟合值ith数据点和y¯是整体平均值。我们有时会想到R2由于平方和分解的总和,作为模型解释的变异比例

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2,

后一项是模型未考虑的残差。R2基本上告诉我们有多少整体变化已“吸收”到拟合值中。