我正在研究足球运动员的 GPS 数据集,其中能量消耗是我的输出变量,其他 15 个变量是输入/自变量。
我的目标是预测球员在未来比赛中的能量进步,如果他们要打满 90 分钟的话。
现在说我有 50 名球员的 150 场比赛数据,我面临的问题是每个球员的比赛时间不同。很少有球员在几场比赛中打了90分钟,很少有人在比赛中打了20-25分钟,所以我很难理解如何解决这个问题。
sample data:
数据集中突出显示的列是我生成的列。Predicted 是我对每个玩家使用多元线性回归的预测,其准确度为 98%。我尝试增加能量/时间 * 90 分钟,但结果效率不高。我已经做了特征分析和选择,从实际数据集中的 90 个变量中筛选出重要的 15 个变量。
Solution Needed:
Day Player Actual_Time player Actual_Energy_Spent Energy_if played_for_90mins
1 A 20 15000 XXXXX
2 A 35 16000 XXXXX
3 A 30 14000 XXXXX
因此,如果我能够使用 15 个输入变量从过去的比赛中预测 90 分钟的值,那么我也可以轻松地预测未来的比赛。我不确定如何实现这一目标。
其他输入变量(例如距离)也取决于 time_played。这可以使用任何统计模型完成,还是我应该使用任何系统动力学来解决这个问题。
在做了一些研究后,我了解了传递函数(激活函数),并且 python SciPy 中有一个函数可以做到这一点,但是我之前没有学到任何东西,不知道这是否能解决这个问题。作为唯一一个没有前辈一起工作或指导的数据分析师实习生,我很无奈。任何用于解决此问题的想法或建议或参考材料都将非常有帮助并非常感谢。
谢谢。