在预测曲棍球运动员的职业总进球数时是否在泊松回归中使用偏移量

机器算法验证 r 回归 泊松分布 广义线性模型 计数数据
2022-03-21 07:03:17

我有一个关于是否使用偏移量的问题。假设一个非常简单的模型,您想在其中描述曲棍球的(总体)进球数。所以你有目标,比赛次数和一个虚拟变量“前锋”,如果球员是前锋则等于 1,否则为 0。那么以下哪个模型是正确指定的?

  1. 目标=比赛+前锋,或

  2. 目标=偏移(比赛)+前锋

同样,目标是总体目标,而游戏数量是单个玩家的总体游戏。例如,可能有一名球员在 100 场比赛中进了 50 球,而另一名球员在 50 场比赛中进了 20 球,以此类推。

当我想估计进球数时应该怎么做?真的有必要在这里使用偏移量吗?

参考:

2个回答

偏移模型是对每场比赛的目标进行建模,如下所示:

log(goals/games) = a+bx

相当于

log(goals) -log(games) = a+bx

相当于

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

请参阅此处的幻灯片 35: http ://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

如果您认为 a+bx 与进球数与比赛的对数比率(比率)有关,请使用偏移量。如果你觉得有更复杂的游戏效果,也许是积累经验,不要。有关更多讨论,请参阅:http ://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811

一些简单的点不能直接解决您关于偏移量的问题:

  • 我会看看比赛次数是否与平均进球数相关。在我能想到的许多精英进球运动(例如足球、澳式足球等)中,我会预测职业生涯的寿命与职业生涯的成功有关。至少对于担任进球角色的球员来说,成功与进球数有关。如果这是真的,那么游戏数量将捕获两种效果。一个是关于更多的比赛意味着更多的进球机会这一事实。另一个将捕获与技能相关的效果。您可以检查比赛次数和平均进球数(例如,进球数/比赛次数)之间的关系来探索这一点。我认为这对你所做的任何建模都有实质性的影响。
  • 我的直觉是将因变量转换为每场比赛的平均进球数。我意识到对于那些玩更多游戏的人来说,你会更精确地衡量一个玩家的技能,所以这可能是个问题。根据您想要的模型精度,以及由此产生的玩家均值分布,您也许可以依赖标准线性建模技术。但也许这有点过于适用于您的目的,也许您有理由想要对总进球数进行建模。