解释泊松回归的系数

机器算法验证 泊松分布
2022-03-30 18:05:33

我不明白如何解释泊松回归的系数相对于 OLS 回归的系数。

假设我有时间序列数据,我的左侧变量是每年赢得的游戏数,而我的主要右侧变量是纳斯达克价值。如果我的首选规范是将模型解释为百分比形式,我会采用获胜游戏的对数转换。我也可以拿纳斯达克的日志来说明纳斯达克上涨 1% 会增加多少游戏获胜的百分比。现在,我承认泊松模型可能是有意义的,因为获胜游戏的数据是计数而不是连续的。我用很多很多控制变量运行回归。

我不会对获胜的游戏进行对数转换而只使用游戏吗?当我得到系数时,我是否会进行某种边际效应计算(可以对概率进行计算)?
我如何解释这些系数?
如何将泊松的解释与 OLS 进行比较——无论是对数转换的 OLS 还是非对数转换的 OLS?

我知道以前有人问过这种问题,但我还是不太明白。

1个回答

不是批评,但这是一个奇怪的例子。不清楚您是否真的在进行时间序列分析,也不清楚纳斯达克与某些球队赢得的比赛数量有什么关系。如果您有兴趣谈论球队赢得的比赛数量,我认为最好使用二元逻辑回归,因为您大概知道比赛的数量。当可能的总数没有很好地约束或至少不知道 时,泊松回归最适合谈论计数。

你如何解释你的 beta 部分取决于使用的链接——可以使用身份链接,即使日志链接更常见(并且通常更合适)。如果您使用的是日志链接,您可能不会记录您的响应变量的日志——该链接本质上是为您做的。让我们举一个抽象的例子,你有一个使用 log 链接的 Poisson 模型,如下所示: 或者,

y^=exp(β^0)exp(β^1)x
y^=exp(β^0+β^1x)

(编辑:我从下面的测试版中删除了“帽子”,因为它们很丑陋,但它们仍然应该被理解。)

使用正态 OLS 回归,您可以根据协变量的值来预测响应变量的高斯分布的平均值。在这种情况下,您将根据协变量的值来预测响应变量的泊松分布的平均值。对于 OLS,如果给定的案例在您的协变量上高 1 个单位,您期望在所有条件相同的情况下,该条件分布的平均值会个单位。在这里,如果给定的情况比其他情况高 1 个单位,则您期望条件均值高出e ^例如,说β1eβ1 β1=2,然后在正常回归中它高 2 个单位(即 +2),这里是 7.4(即 x 7.4)。在这两种情况下,都是你的拦截在我们上面的等式中,考虑的情况,然后是 exp,右手边减少到 exp( ),它给出了的平均值当所有协变量都等于 0 时。 β0x=0(β1)x=1β0y

有几件事可能会让人感到困惑。首先,预测泊松分布的均值与预测高斯分布的均值不同。对于正态分布,均值是最可能的值。但是对于泊松,平均值通常是一个不可能的值(例如,如果您的预测平均值是 2.7,那么这不是可能存在的计数)。此外,平均值通常与离散程度(即标准差)无关,但对于泊松分布,方差必然等于平均值​​(尽管在实践中通常不等于平均值​​,这会导致额外的复杂性)。最后,这些幂运算使它变得更加复杂。如果您想知道确切的值而不是相对变化,则必须从 0 开始(即eβ0) 并将你的方式乘以倍。对于预测特定值,更容易求解底部方程中括号内的表达式,然后求幂;这使得 beta 的含义不太清楚,但数学更容易并减少了出错的可能性。 x