数据挖掘 - 概率和普通最小二乘回归输出之间的差异 - 吾爱随笔录

概率和普通最小二乘回归输出之间的差异

数据挖掘机器学习线性回归

2021-09-30 19:10:10

如果我执行命令

my_reg = LinearRegression()
lin.reg.fit(X,Y)

我训练我的模型。据我了解，训练模型是计算系数估计量。

我真的不明白这和例如之间的区别

scipy.stats.linregress(X,Y)

计算一个“正态”回归，它也给了我系数估计量和与之相关的所有其他统计数据。

谁能告诉我这里有什么区别？

2个回答

它们都解决了完全相同的目标，即最小化均方误差。然而，第二种方法可以回答“斜率不为零的自信程度，即 $Y$ 与 $X$ ?” 通过 p 值。

详细

让我们将数据表示为 $(X, Y) = \{(x_n, y_n)|x_n \in \mathbb{R}^D, y_n \in \mathbb{R}\}$ . 回归为 $\hat{y} = Ax+B$ .

返回的额外数量scipy.stats.linregress(X,Y)是：rvalue ( $r$ ) 和 pvalue ( $p$ ）。

在统计中， $r^2$ （称为r-squared）测量“拟合优度”。也就是说，作为回归 $\hat{y}=Ax+B$ 更接近观察 $y$ , $r^2$ 越来越接近 $1$ . 因为它是一个函数 $y$ 和 $\hat{y}$ ，也可以用第一种方法计算。所以这里没有区别。

然而， $p$ 特定于第二种方法。scipy.stats.linregress(X,Y)向噪声添加正态假设，即假设 $\epsilon \sim N(0, \sigma^2)$ 在哪里

ϵ = y - \overset{\hat{y}}{\overset{⏞}{A x + B}}

$\epsilon = y - \overbrace{Ax+B}^{\hat{y}}$ 在这个假设的基础上，它可以回答一个额外的问题：“斜率不为零的信心有多大？”。第一种方法无法回答这个问题。

例如，假设估计的斜率是 $2.1$ 对于这两种方法，我们仍然无法判断这个斜率是否显着或 $Y$ 实际上是独立于 $X$ . 除非我们看价值 $p$ . 例如，对于 $p < 0.01$ 我们有信心（在显着性水平 $0.01$ ）那 $Y$ 与 $X$ ，但对于 $p > 0.1$ 我们不能自信，即斜率 $2.1$ 可能是由于机会和 $Y$ 可能独立于 $X$ .

此链接提供了有关如何在第二种方法中实际计算 p 值的更多详细信息。

在概念意义上没有区别 - 两种方法都计算线性回归系数。不同之处在于界面 - 通过scipy.stats您直接获得系数（并且由您将它们放入方程来计算预测），scikit-learn将它们包装到模型对象中，以便您可以以类似的方式使用它其他 ML 模型，例如决策树。（实际上，您可以使用获得拟合scikit-learn模型的回归系数my_reg.coef_。）

其它你可能感兴趣的问题

上一篇人为增加造词中词尾字符的频率权重下一篇“添加更多 LSTM 层”或“在存在层上添加更多单元”有什么区别？