机器算法验证 - 解释泊松回归的系数 - 吾爱随笔录

解释泊松回归的系数

机器算法验证泊松分布

2022-03-30 18:05:33

我不明白如何解释泊松回归的系数相对于 OLS 回归的系数。

假设我有时间序列数据，我的左侧变量是每年赢得的游戏数，而我的主要右侧变量是纳斯达克价值。如果我的首选规范是将模型解释为百分比形式，我会采用获胜游戏的对数转换。我也可以拿纳斯达克的日志来说明纳斯达克上涨 1% 会增加多少游戏获胜的百分比。现在，我承认泊松模型可能是有意义的，因为获胜游戏的数据是计数而不是连续的。我用很多很多控制变量运行回归。

我不会对获胜的游戏进行对数转换而只使用游戏吗？当我得到系数时，我是否会进行某种边际效应计算（可以对概率进行计算）？
我如何解释这些系数？
如何将泊松的解释与 OLS 进行比较——无论是对数转换的 OLS 还是非对数转换的 OLS？

我知道以前有人问过这种问题，但我还是不太明白。

1个回答

不是批评，但这是一个奇怪的例子。不清楚您是否真的在进行时间序列分析，也不清楚纳斯达克与某些球队赢得的比赛数量有什么关系。如果您有兴趣谈论球队赢得的比赛数量，我认为最好使用二元逻辑回归，因为您大概知道比赛的数量。当可能的总数没有很好地约束或至少不知道时，泊松回归最适合谈论计数。

你如何解释你的 beta 部分取决于使用的链接——可以使用身份链接，即使日志链接更常见（并且通常更合适）。如果您使用的是日志链接，您可能不会记录您的响应变量的日志——该链接本质上是为您做的。让我们举一个抽象的例子，你有一个使用 log 链接的 Poisson 模型，如下所示：或者，

\hat{y} = exp ({\hat{β}}_{0}) * exp ({\hat{β}}_{1})^{x}

$\hat{y}=\text{exp}(\hat{\beta}_0)*\text{exp}(\hat{\beta}_1)^x$

\hat{y} = exp ({\hat{β}}_{0} + {\hat{β}}_{1} x)

$\hat{y}=\text{exp}(\hat{\beta}_0+\hat{\beta}_1x)$

（编辑：我从下面的测试版中删除了“帽子”，因为它们很丑陋，但它们仍然应该被理解。）

使用正态 OLS 回归，您可以根据协变量的值来预测响应变量的高斯分布的平均值。在这种情况下，您将根据协变量的值来预测响应变量的泊松分布的平均值。对于 OLS，如果给定的案例在您的协变量上高 1 个单位，您期望在所有条件相同的情况下，该条件分布的平均值会个单位。在这里，如果给定的情况比其他情况高 1 个单位，则您期望条件均值高出e ^倍。例如，说 ${\beta}_1$ $e^{{\beta}_1}$ ${\beta}_1=2$ ，然后在正常回归中它高 2 个单位（即 +2），这里是 7.4倍（即 x 7.4）。在这两种情况下，都是你的拦截；在我们上面的等式中，考虑的情况，然后是 exp，右手边减少到 exp( )，它给出了的平均值当所有协变量都等于 0 时。 ${\beta}_0$ $x=0$ $({\beta}_1)^x=1$ ${\beta}_0$ $y$

有几件事可能会让人感到困惑。首先，预测泊松分布的均值与预测高斯分布的均值不同。对于正态分布，均值是最可能的值。但是对于泊松，平均值通常是一个不可能的值（例如，如果您的预测平均值是 2.7，那么这不是可能存在的计数）。此外，平均值通常与离散程度（即标准差）无关，但对于泊松分布，方差必然等于平均值（尽管在实践中通常不等于平均值，这会导致额外的复杂性）。最后，这些幂运算使它变得更加复杂。如果您想知道确切的值而不是相对变化，则必须从 0 开始（即 $e^{{\beta}_0}$ ) 并将你的方式乘以倍。对于预测特定值，更容易求解底部方程中括号内的表达式，然后求幂；这使得 beta 的含义不太清楚，但数学更容易并减少了出错的可能性。 $x$

其它你可能感兴趣的问题