我是体育分析的初学者,但也许是一个快速的经验示例:有一个包“vcd”,其中包含从 1963 年到 2008 年德甲联赛的所有足球比赛。我们可以使用这个数据集来看看我们是否看到了一些(初步) 连续三场比赛的表现之间存在相关性的证据(已经排序)。为简单起见,让我们只考察一支球队(我最喜欢的球队多特蒙德队或多特蒙德队)
install.packages("vcd")
library("vcd")
data("Bundesliga")
bvb <- subset(Bundesliga, HomeTeam == "Borussia Dortmund" | AwayTeam == "Borussia Dortmund")
bvb$Points <- 0
bvb$Home <- 0
# ...
reg <- lm(Points ~ as.factor(Year) + Home + lag_Points + lag_Points2, data = bvb)
summary(reg)
我们得到以下回归结果(标准误差未针对自相关或潜在的赛季内相关性进行校正,OLS 可能不是一个非常适合零、一或三的因变量的估计量,但这应该只是一个例子):
Call:
lm(formula = Points ~ as.factor(Year) + Home + lag_Points + lag_Points2, data = bvb)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.414743 0.241077 5.868 5.58e-09
as.factor(Year)1964 0.091076 0.323087 0.282 0.77807
...
as.factor(Year)2008 0.086770 0.312788 0.277 0.78151
Home 0.884637 0.070048 12.629 < 2e-16
lag_Points -0.078543 0.027344 -2.872 0.00414
lag_Points2 -0.052414 0.026662 -1.966 0.04952
我们看到(正如预期的那样)主场比赛和获得的积分之间存在很强的关系,而且也许令人惊讶在本场比赛之前的最后两场比赛中得分的负系数。这可能只是对平均值的回归,但它是随着时间的推移可能存在相关性的一些轶事证据。−−−−