无监督学习从空间数据中识别最常见的篮球比赛

数据挖掘 机器学习
2021-10-10 07:43:17

NBA 有一个名为 Sports VU 的系统,该系统在 2013-2014 和 2014-2015 赛季的每场比赛中每 1/10 秒跟踪每个球员和球的 xy 坐标。通过一些花哨的网络抓取,我现在可以访问这些数据,而且——因为我是 NBA 的狂热粉丝——我想确定每支球队最常见的比赛。假设我事先对每支球队的比赛一无所知(所以我认为监督学习在这里不起作用)。什么是最好的无监督学习技术?

如果我可以在游戏过程中追踪每个玩家的路径,我想这个问题会类似于你在图像识别/分类中看到的问题。无论如何,我应该使用 PCA,某种神经网络吗?我知道这是一个非常广泛的问题——我不需要知道如何编码(我是一个熟练的编码器和机器学习从业者);我只是在寻找高级无监督机器学习细节。

2个回答

这是一个非常有趣的问题!像大多数真正有趣的问题一样,您不太可能为此找到开箱即用的解决方案,但我认为图/子图相似性领域在这里有一些希望。我会更详细地介绍,但是,在高层次上,我认为您可以将玩家在游戏中的路径视为通过 x,y 空间的五次遍历的集合,顶点是您可用的任何 x,y 点(大概这里有某种程度的时间粒度),以及描述玩家随着时间从 x,y 空间中的一个点到下一个点的移动的边。应该可以使用相似度度量对数据进行聚类(例如,参见Koutra 等人,2011一个很好的概述)。然后,使用您自己的领域专业知识,您应该能够确定您派生的集群在篮球中是否具有某些现实意义。

我同意图像分类是寻找灵感的正确地方。但是,不要将“图像”视为球场位置的网格,而“颜色”是球员,我会首先看看你是否从将“图像”视为球员网格中得到任何有用的东西,其中“颜色”是玩家的 x 和 y 位置(可能还有速度)。

我认为您需要对数据进行某种“聚合”:与其尝试查看完整的游戏,不如查看更接近游戏长度的片段。您可以使用移动窗口(相当于图像补丁)或将足够相似的玩家秒数(相当于超像素)连接在一起来创建描述游戏的图形。我的猜测是,移动窗口方法是最好的起点,因为它可能会告知哪些特征与将像素连接在一起以形成超像素相关。

在游戏的移动窗口上执行 k-means 时,可能会出现类似 play 之类的情况,但您可能会从确保看起来很重要的那种结构中受益匪浅(例如,与最近的敌人的距离) player) 已经可以作为包含在假设中的功能使用。