编辑:自从发表这篇文章以来,我在这里又发了一篇文章。
下面的文字摘要:我正在研究一个模型,并尝试过线性回归、Box Cox 变换和 GAM,但没有取得太大进展
使用R
,我目前正在研究一个模型来预测小联盟棒球运动员在大联盟 (MLB) 级别的成功。因变量,进攻性生涯胜过替补(oWAR),是 MLB 级别成功的代表,衡量为球员在其职业生涯中参与的每场比赛的进攻贡献总和(详情请点击此处 - http ://www.fangraphs.com/library/misc/war/)。自变量是用于统计数据的 z 得分小联盟进攻变量,这些统计数据被认为是大联盟级别成功的重要预测指标,包括年龄(在年轻时取得更多成功的球员往往有更好的前景),三振出局率 [SOPct ]、步行速度 [BBrate] 和调整后的产量(进攻性产量的全球衡量标准)。此外,由于小联盟有多个级别,因此我为小联盟级别的比赛(双 A、高 A、低 A、新秀和短赛季与三 A [大联盟之前的最高级别]作为参考变量])。注意:我已将 WAR 重新缩放为从 0 到 1 的变量。
变量散点图如下:
作为参考,因变量 oWAR 具有以下图:
我从线性回归开始oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
并获得了以下诊断图:
残差缺乏无偏性和随机变化存在明显的问题。此外,残差不正常。回归结果如下所示:
按照上一个帖子中的建议,我尝试了 Box-Cox 转换,但没有成功。接下来,我尝试了一个带有日志链接的 GAM,并收到了这些图:
原来的
新诊断图
It looks like the splines helped fit the data but the diagnostic plots still show a poor fit. EDIT: I thought I was looking at the residuals vs fitted values originally but I was incorrect. The plot that was originally shown is marked as Original (above) and the plot I uploaded afterwards is marked as New Diagnostic Plot (also above)
The of the model has increased
but the results produced by the command gam.check(myregression, k.rep = 1000)
are not that promising.
Can anyone suggest a next step for this model? I am happy to provide any other information that you think might be useful to understand the progress I've made thus far. Thanks for any help you can provide.