模拟运动中的输赢结果

机器算法验证 回归 造型 泊松分布
2022-04-01 00:56:20

我有关于不同球队、球员等的数据。我试图找出模拟比赛结果的最佳方法,比赛结果可能以主队获胜、主队失利或平局告终。不过,我在建模时遇到了麻烦。

例如,我可以使用泊松回归来模拟每支球队的进球数,然后计算他们的概率网格,但我对独立性假设不太满意。我也可以做一个双变量泊松,我没有太多经验。我想知道有什么合适的方法来模拟结果对两支球队的依赖性,同时还保留结果是相互排斥的事实(分配给赢得平局的概率应该总和)。

2个回答

您可以使用具有概率质量函数的双变量泊松分布

f(x,y)=exp{(λ1+λ2+λ3)}λ1xx!λ2yy!k=0min(x,y)(xk)(yk)k!(λ3λ1λ2)k

其中,因此您可以将视为两个边缘之间的依赖关系的度量泊松分布。如果您使用 R ,则此分发的 pmf 和随机生成在extraDistr包中实现。E(X)=λ1+λ3E(Y)=λ2+λ3cov(X,Y)=λ3λ3

事实上,Karlis 和 Ntzoufras (2003) 在分析体育数据时描述了这种分布,因此您可以查看他们的论文以获取更多详细信息。这些作者在他们早期的论文中还讨论了单变量泊松模型,他们得出的结论是,独立性假设提供了公平的近似值,因为两个团队的分数之间的差异不取决于双变量泊松的相关参数(Karlis 和 Ntzoufras,2000)。

Kawamura (1984) 描述了通过使用最大似然的直接搜索来估计二元泊松分布的参数。至于回归模型,您可以使用 EM 算法进行最大似然估计,如 Karlis 和 Ntzoufras (2003),或使用 MCMC 估计的贝叶斯模型。用于二元泊松回归的 EM 算法在bivpois包(Karlis 和 Ntzoufras,2005)中实现,不幸的是,该包目前不在 CRAN 中。


Karlis, D., & Ntzoufras, I. (2003)。使用双变量泊松模型分析体育数据。 皇家统计学会杂志:D 系列(统计学家),52 (3), 381-393。

Karlis, D. 和 Ntzoufras, I. (2000)关于足球数据建模。 学生,3,229-244。

Kawamura, K. (1984)。直接计算二元泊松分布的最大似然估计量。Kodai 数学杂志,7(2),211-221。

Karlis, D. 和 Ntzoufras, I. (2005)。R.统计软件杂志,14(10),1-36 中的双变量泊松和对角膨胀双变量泊松回归模型。

双变量泊松不适应之间的负相关。可以通过将泊松分位数函数应用于高斯 copula 的每个分量来构建一个模型。由此产生的二元概率质量函数很容易在 R 中使用以下代码计算,其中向量包含两个边际泊松分布的参数,并且是标准双正态分布的相关性。x1x2lambdarho

library(mvtnorm)
dbipoisgausscopula <- function(x, lambda, rho) {
   pmvnorm(lower=qnorm(ppois(x-1,lambda)),
      upper=qnorm(ppois(x,lambda)),
      mean=c(0,0),
      sigma=matrix(c(1,rho,rho,1),2,2)
   )
}