任何关注棒球的人都可能听说过多伦多的何塞·包蒂斯塔的 MVP 式表现。在之前的四年里,他每个赛季大约打出 15 个本垒打。去年他打出了 54 分,在棒球历史上只有 12 名球员超过了这个数字。
2010 年他拿到了 240 万,他要求球队在 2011 年拿到 1050 万。他们出价 760 万。如果他能在 2011 年重复这一点,那么他很容易就值这两个数字。但他重蹈覆辙的几率有多大?我们能指望他回归到平均水平有多难?我们可以期待他的表现有多少是偶然的?我们可以期待他回归到均值调整后的 2010 年总数是多少?我该如何解决?
我一直在使用 Lahman 棒球数据库并挤出一个查询,该查询返回前五个赛季中每个赛季至少有 50 次击球次数的所有球员的本垒打总数。
表格看起来像这样(注意第 10 行的 Jose Bautista)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
完整结果(232 行)可在此处获得。
我真的不知道从哪里开始。谁能指出我正确的方向?一些相关的理论和 R 命令会特别有用。
谢谢
汤米
注意:这个例子有点做作。本垒打绝对不是球员价值的最佳指标,并且本垒打总数不考虑每个赛季击球手有机会击出本垒打的机会的不同数量(板出场)。它也没有反映出一些球员在更有利的体育场打球,以及联盟平均本垒打逐年变化。等等。如果我能掌握解释均值回归背后的理论,我可以将其用于比 HR 更合适的度量。