赢得一场足球比赛是否独立于之前的输赢?

机器算法验证 可能性 随机过程 独立
2022-03-27 03:03:18

我有一个有点赌徒的朋友问我这个问题。他的数学背景很差,但有逻辑意识,很可能会接受自然语言的逻辑答案。

所以我的朋友问我在玩轮盘赌的连续试验中结果的概率是否会改变。我说不会,他也不需要进一步验证。他只问是不是因为轮盘没有记忆。我说如果他喜欢,他可以这样说。

然后那个人问我足球比赛是否也是如此。我告诉他,尽管有其他因素对足球的影响,但也应该如此。我的朋友坚持相反,我不知道该对他说什么。

我希望能够向他解释为什么足球比赛是独立的赛事。如果这不是真的,那么依赖是什么?考虑一个特定的团队会改变任何事情。此外,我们可以应用哪些限制来确保独立性?拥有相同的对手球队?

ps除了任何其他答案之外,我不介意包括数学在内的答案。

pps 我在 math.SE 上问了完全相同的问题,我被告知它不属于。我希望这是一个合适的地方问。

4个回答

我想大多数人都会同意足球比赛的连续结果(同一支球队?!)不是相互独立的。显然,有一些因素,例如受伤的球员,使得比赛在时间上很接近。

这些无形联系的确切性质几乎不可能正确地陈述,尤其是完整的陈述。非常参与这项运动的人可能能够对即将发生的事件的结果做出更有根据的猜测。

我不认为你可以做任何事情来确保足球比赛结果之间的独立性。基本上,地球上没有任何事物是独立于其他事物的。真正的独立性只发生在理想化的思想实验中。但相关程度差异很大。

您可以开始控制最有影响力的因素(伤病、主场比赛、球员更换)。但是这个列表是无限的,尽管因素对它的影响迅速减少。因此,实际上您可以控制大部分依赖项。剩余的相关性在某些时候会变得太小而无法检测——它们将在经验上为零,但它们永远不会变成可证明的零。

顺便说一句,连续的现实世界轮盘赌结果也相互依赖。但现实世界的轮盘赌与理想主义的轮盘赌非常相似。所以在不考虑任何因素的情况下,它们是非常非常独立的。

我是体育分析的初学者,但也许是一个快速的经验示例:有一个包“vcd”,其中包含从 1963 年到 2008 年德甲联赛的所有足球比赛。我们可以使用这个数据集来看看我们是否看到了一些(初步) 连续三场比赛的表现之间存在相关性的证据(已经排序)。为简单起见,让我们只考察一支球队(我最喜欢的球队多特蒙德队或多特蒙德队)

install.packages("vcd")  
library("vcd")  
data("Bundesliga")
bvb <- subset(Bundesliga, HomeTeam == "Borussia Dortmund" | AwayTeam == "Borussia Dortmund") 
bvb$Points <- 0
bvb$Home <- 0
# ...
reg <- lm(Points ~ as.factor(Year) + Home + lag_Points + lag_Points2, data = bvb)
summary(reg)

我们得到以下回归结果(标准误差针对自相关或潜在的赛季内相关性进行校正,OLS 可能不是一个非常适合零、一或三的因变量的估计量,但这应该只是一个例子):

Call:
lm(formula = Points ~ as.factor(Year) + Home + lag_Points + lag_Points2, data = bvb)
...
Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          1.414743   0.241077   5.868 5.58e-09 
as.factor(Year)1964  0.091076   0.323087   0.282  0.77807    
...
as.factor(Year)2008  0.086770   0.312788   0.277  0.78151  
Home                 0.884637   0.070048  12.629  < 2e-16 
lag_Points          -0.078543   0.027344  -2.872  0.00414
lag_Points2         -0.052414   0.026662  -1.966  0.04952 

我们看到(正如预期的那样)主场比赛和获得的积分之间存在很强的关系,而且也许令人惊讶在本场比赛之前的最后两场比赛中得分的负系数。这可能只是对平均值的回归,但它是随着时间的推移可能存在相关性的一些轶事证据。

在体育分析中,人们经常会问一些更空灵的概念,比如动量、关键时刻或主场优势。从表面上看,说这些东西不存在听起来很愚蠢。但是,它们是否存在与我们是否可以在任何类型的预测分析中有意义地使用它们是一个单独的问题。有时需要大量数据才能将信号从噪声中分离出来,以至于信号在被检测到时大部分已经消失(这在很大程度上但不完全是,例如美国职业棒球大联盟中离合器击球的情况)。另一方面,主场优势是一系列运动的相当重要的预测指标(通常至少部分是由于官员的潜意识偏见)。在连续足球比赛的情况下,完全独立,但我认为这不是一个非常有趣的问题。我认为想知道可能会发现什么有意义的预测价值更有趣。

这个问题基本上是所谓“热手效应”的变种。也就是说,最近的成功是否会在未来带来更多的成功(在控制团队质量等之后)?我不能具体谈论足球,但这已经在各种运动中被多次研究过(也许最值得注意的是篮球中的罚球,条件更加均匀,外力最小化)。通常,在这些研究中可能发现的任何微小影响往往都太小而无法发挥作用。也许足球是不同的,但我不会打赌。

如果您想自己进行调查,则需要确保您考虑到每个团队的技能和健康状况。如果A队昨天赢了,我猜他们明天也更有可能赢。这不是因为记忆,而是因为 A 队获胜的知识增加了我们对他们是一支高于平均水平、健康的球队的信念。此外,您可能需要考虑在调度中可能存在相当数量的非随机性。例如,在美国职业棒球大联盟中,大量非常优秀的球队恰好聚集在东海岸,而来自西海岸的球队往往将他们的比赛聚集在一起。从表面上看,球队对他们的损失有记忆,这可能只是一个日程安排的产物。

我找到了一篇与此相关的文章。在那里,运行测试和卡方拟合优度测试用于测试连胜次数是否符合独立下的理论期望。谷歌:体育的连胜纪录和对势头的误解。